推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

不均衡大数据集下的文本特征基因提取方法

更新时间:2019-12-30 13:32:12 大小:799K 上传用户:IC老兵查看TA发布的资源 标签:大数据 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能。该文提出了一种文本特征基因提取方法。首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然后,在探究多维统计数据高阶相关性的基础上,采取独立成分分析手段,设计了文本特征基因提取方法,用以增强特征项的泛化能力;最后,将这两种方法相融合,实现了在不均衡大数据集下的文本特征基因提取新方法。实验结果表明,所提方法具有较好的早熟性及特征降维能力,在小类的分类效果上优于常见特征选择算法。


部分文件列表

文件名 大小
1577683926不均衡大数据集下的文本特征基因提取方法.pdf 799K

部分页面预览

(完整内容请下载后查看)
47 卷 第 1 期  
20181月  
电 子 科 技 大 学 学 报  
Vol.47 No.1  
Jan. 2018  
Journal of University of Electronic Science and Technology of China  
不均衡大数据集下的文本特征基因提取方法  
孙晶涛1,张秋余2  
(1. 西安邮电大学计算机学院 西安 7101212. 兰州理工大学计算机与通信学院 兰州 730050)  
摘要在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能。该文提出了一种文本特征  
基因提取方法。首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,  
以强化小类的特征;然后,在探究多维统计数据高阶相关性的基础上,采取独立成分分析手段,设计了文本特征基因提取方  
法,用以增强特征项的泛化能力;最后,将这两种方法相融合,实现了在不均衡大数据集下的文本特征基因提取新方法。实  
验结果表明,所提方法具有较好的早熟性及特征降维能力,在小类的分类效果上优于常见特征选择算法。  
关 键 词 CHI统计选择方法; 不均衡大数据集; 独立成分分析; 信息熵; 文本特征基因提取  
中图分类号 TN393.098  
文献标志码  
A
doi:10.3969/j.issn.1001-0548.2018.01.019  
Text Feature Gene Extraction on Imbalanced Big Dataset  
SUN Jing-tao1 and ZHANG Qiu-yu2  
(1. School of Computer Science and Technology, Xi’an University of Posts and Telecommunications Xi’an 710121;  
2. School of Computer and Communication, Lanzhou University of Technology Lanzhou 730050)  
Abstract In the cases of imbalance big datasets, the traditional feature processing method is biased to the  
large class and ignores the small class, which affects the classification performance. So a text feature gene  
extraction method is proposed in this paper. First of all, considering the feature selection impact of imbalance  
distribution of sample categorization, a feature selection method based on the CHI statistical matrix combined with  
information entropy is used to strengthen the characteristics of the small class. Secondly, based on the high order  
correlation of multidimensional statistical data, the method of text feature extraction is designed to enhance the  
generalization ability of feature item. Finally, the two methods are combined to construct a new method of text  
feature extraction under unbalanced large datasets. The experimental results show that the proposed method has a  
better performance in early maturity and feature dimension reduction, and is far superior to the common feature  
selection algorithm in the classification ability of small classes.  
Key words CHI statistical selection method; imbalanced big dataset; independent component analysis;  
information entropy; text feature gene extraction  
当前社会正在逐渐步入大数据时代,文本内容  
分析业已成为实现大数据理解与价值发现的有效手  
段,文本分类作为大数据内容挖掘的关键技术,广  
泛应用于互联网舆情监测与预警、网络有害信息过  
滤以及情感分析等多个领域。而特征选择作为文本  
分类中至关重要的一环,也直接影响到模型构建及  
分类效率和准确性。  
文 档 频 率 (ocument frequency, DF) 、 信 息 增 益  
(information gain, IG)、互信息(mutual information,  
MI)等方法[3-5],往往假定数据集内样本的类别分布  
相同或相近,使得所确定的特征项大多来自类别数  
量占优的大类,导致选出的最具区分度的特征子集  
无法准确反映整个样本空间的真实分布;2) “大数  
据”[6-7]使得数据维数呈现爆炸性增长,面对超高维  
度的数据集,不仅意味着巨大的内存需求,而且意  
味着高昂的计算成本投入。在这些高维数据的特征  
空间中,繁多的特征点之间存在着很强的相关性,  
使得采用传统方法选取的特征项泛化能力急剧恶  
目前在文本分类中,特征选择方法多采用基于  
向量空间模型(vector space model)[1-2]的统计方法,  
但这类方法在实际应用中会出现两方面的问题:1)  
集内样本的类别分布不均衡,传统特征选择函数如  
收稿日期: 2016- 09 - 21;修回日期: 2017 - 09 - 15  
基金项目:国家自然科学基金(61363078);陕西省科技统筹创新工程-重点产业创新链-工业领域项目(2016KTZDGY04-01);陕西省自然科学基础  
研究计划(2016JM6048).  
作者简介:孙晶涛(1981 - ),男,博士,高级工程师,主要从事自然语言理解、数据挖掘、机器学习与人工智能等方面的研究.  
电 子 科 技 大 学 学 报  
47 卷  
126  
化。如何从纷繁复杂的表象信息中提取出事物的本  
质特征、提高特征项的泛化能力就愈显重要。  
如同生物基因是生命体最小的功能单位一样,  
文本特征基因也是文本最小的结构单位,其储存着  
文本深层次的语义结构以及潜在的语义联系,是全  
部文本信息的基本载体。本文正是研究如何在文本  
特征集中提取出稳定化能力强的特征基因子集,  
从而降低向量空间的特征维数高分类识别效果。  
将信息熵引入特征点类别权重定义中,构造特征点  
对文本类别的区分度矩阵,消除传统方法对不均衡  
样本集进行特征提取时的缺陷,提高分类识别的正  
确 性 。 采 用 独 立 成 分 分 析 方 法 (independent  
component analysis, ICA)[8],通过分析多维统计数据  
间的高阶相关性,找出相互独立的隐含信息成分,  
以此提取文本特征基因,减少特征采样点数量,实  
现在不均衡大数据集中,较准确提取全面、真实反  
映文本内容信息的最优特征基因子集,提升文本分  
类识别的性能。通过在搜狐新闻数据(SogouCS)  
20151022语料库上的实验表明,文本特征基因提取  
方法(text feature gene extraction, TFGE)能够使采用  
SVM(support vector machine)分类算法构造的文本  
分类器识别性能显著提升。  
算法[15],这些方法所选特征子集通常较为优化,但  
面对“大数据”普遍存在运行效率低的问题。  
然而现有处理手段大多集中在对样本类别分布  
再平衡及分类算法改进等方面,对特征选择、特征  
提取的研究尚不多见[16]提出了一种迭代的特  
征选择模型,利用迭代过程中的聚类结果进行数据  
特征采样排名,以此选取最优特征子集。但该模型  
中迭代函数以及迭代次数的选择对问题求解影响因  
素很大型性能受到了一定制约[17]提出了  
一种应用于不均衡数据集下的无监督特征选择方  
法,该方法在无监督环境下,对不同特征空间利用  
概率密度分析各特征数据的分布状况,通过特征之  
间的数据分布关系来进行特征选择。但该方法没有  
考虑到数据分布的特点,对分类性能的影响较大。  
本文研究拟以CHI统计选择方法( χ2 统计)为基  
础,通过引入信息熵以及文本特征分布矩阵,克服  
χ2 统计量在处理不均衡数据集上的不足,并采用  
ICA方法分析原本隐藏在大量数据集中的内在因子  
或成分信息,利用这些信息描述数据的本质结构,  
实现降维去噪,提高文本分类的识别率。  
2 相关理论  
2.1 CHI统计选择方法  
1 相关工作  
CHI统计选择方法是假定在特征与类别之间,  
具有一阶自由度 χ2 分布基础上提出的一种FS方法。  
χ2 值大小与特征和类别的相关性成正比[18-19]征  
t 与类别 ci χ2 值定义为:  
目前,国内外学者针对不均衡数据集下的数据  
分析进行了相关的研究。文献[9]提出了基于逐级优  
化的逆随机欠抽样算法,该算法在去除训练样本中  
噪声和重复信息的同时,使获得的分类器更倾向于  
小类样本,而采用Bagging方法进行多分类器集成,  
能够尽可能保留有用信息高有效数据的利用率。  
文献[10]提出了基于核聚类欠抽样集成不均衡SVM  
分类算法,该算法首先在核空间中对大类样本集进  
行聚类,然后随机选择出具有代表意义的聚类信息  
点,在减少大类样本的同时,将SVM算法的分类界  
面向小类样本方向偏移,并利用集成手段对基于核  
聚类的欠抽样SVM算法进行集成,最终实现提高不  
均衡数据SVM算法泛化性能的目的。文献[11]提出  
了改进的基于核密度估计的数据分类算法。该方法  
通过引入空间信息以及平滑参数,改善了原有核密  
度估计的分类方法在处理不均衡问题时所存在的缺  
陷。但该方法将空间信息仍定义为检测点到类中心  
的距离,这必然导致方法的鲁棒性较差。还有一些  
N(AD - CB)2  
(A + C)(B + D)(A + B)(C + D)  
χ2 (t,ci ) =  
(1)  
式中,N表示样本集中样本的总数;A表示包含特征  
t并且类别为 ci 的样本数;B表示包含特征t并且类别  
不为 ci 的样本数C表示不包含特征t类别为 ci 的  
样本数;D表示既不包含特征t,类别也不为 ci 的样  
本数。  
可以看出, χ2 值越大,特征t与类别 ci 越相关。  
当类别数较多时,可以分别计算特征t与不同类别的  
χ2 取其中最大的 χ2 值作为特征t的所属类别,  
χM2 AX (t) = MAXim=1χ2 (t,ci ) 。  
文献[20]的实验证明CHI统计选择方法具有较  
好的特征选择性能从式(1)能够看出,χ2 值仅体  
现特征在样本集中的文档频率,并没有考虑特征的  
词频,导致CHI方法在处理低频词时具有较大误差,  
使一部分噪声词优选低了分类精度。  
文 献 提 出 了 分 类 算 法 的 改 进 , 如 boosting[12]  
FCM-KFDA[13]AdaBoost-SVM[14]、代价敏感学习  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载