推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于多维扩展特征与深度学习的微博短文本情感分析

更新时间:2019-12-30 13:12:20 大小:664K 上传用户:zhiyao6查看TA发布的资源 标签:深度学习 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

该文提出了一种基于深度信念网络(DBN)和多维扩展特征的模型,实现对中文微博短文本的情感分类。为降低传统文本分类方法在处理微博短文时特征稀疏的影响,引入社交关系网络作为扩展特征,依据评论者和博主之间的社交关系,提取相关评论扩展原始微博,将扩展后的多维特征作为深度信念网络的输入。通过叠加多层玻尔兹曼机(RBM)构建DBN模型底层网络结构,多层玻尔兹曼机可以对原始输入抽象并获得数据的深层语义特征。在多个RBM层上叠加一层分类玻尔兹曼机(Class RBM),实现最终情感分类。实验结果表明,通过调整模型参数和网络结构,构建的深度学习模型在情感分类中能够获得比SVM和NB等浅层分类系统更优的结果,另外,实验证明使用扩展多维特征方法可提高短文本情感分类的性能。


部分文件列表

文件名 大小
基于多维扩展特征与深度学习的微博短文本情感分析.pdf 664K

部分页面预览

(完整内容请下载后查看)
39 卷第 9 期  
20179月  
Vol.39No.9  
Sept. 2017  
Journal of Electronics & Information Technology  
基于多维扩展特征与深度学习的微博短文本情感分析  
①②  
*①  
彭晓琪  
任福继  
(情感计算与先进智能机器安徽省重点实验室 合肥 230009)  
(德岛大学工学部 德岛 770-8509)  
该文提出了一种基于深度信念网络(DBN)和多维扩展特征的模型现对中文微博短文本的情感分类为  
降低传统文本分类方法在处理微博短文时特征稀疏的影响入社交关系网络作为扩展特征据评论者和博主之  
间的社交关系取相关评论扩展原始微博扩展后的多维特征作为深度信念网络的输入过叠加多层玻尔兹  
曼机(RBM)构建 DBN 模型底层网络结构层玻尔兹曼机可以对原始输入抽象并获得数据的深层语义特征多  
RBM 层上叠加一层分类玻尔兹曼机(ClassRBM),实现最终情感分类。实验结果表明,通过调整模型参数和网  
络结构,构建的深度学习模型在情感分类中能够获得比 SVM NB 等浅层分类系统更优的结果,另外,实验证明  
使用扩展多维特征方法可提高短文本情感分类的性能。  
关键词:社交网络;深度信念网络;扩展多维特征;受限玻尔兹曼机;分类受限玻尔兹曼机  
中图分类号TP393; TP391.43  
DOI: 10.11999/JEIT160975  
文献标识码A  
文章编号1009-5896(2017)09-2048-08  
Extended Multi-modality Features and Deep Learning Based  
Microblog Short Text Sentiment Analysis  
①②  
SUN Xiao  
PENG Xiaoqi  
HU Min  
REN Fuji  
(Anhui Province Key Laboratory of Affective Computing and Advanced Intelligent Machine, Hefei 230009, China)  
(Faculty of Engineering, University of Tokushima, Tokushima 770-8509, Japan)  
Abstract: This paper presents a Deep Belief Nets (DBN) model and a multi-modality feature extraction method to  
,
extend features dimensionalities of short text for Chinese microblogging sentiment classification. Besides  
traditional features sets for document classification, comments for certain posts are also extracted as part of the  
microblogging features according to the relationship between commenters and posters through constructing  
microblogging social network as input information. Multi-modality features are combined and adopted as the input  
vector for DBN. A DBN model, which is stacked with several layers of Restricted Boltzmann Machine (RBM), is  
implemented to initialize the structure of neural network. The RBM layers can take probability distribution  
samples of input data to learn hidden syntactic structures for better feature representation. A Classification RBM  
(ClassRBM) layer, which is stacked on top of the former RBM layers, is adapted to achieve the final sentiment  
classification. The results demonstrate that, with proper structure and parameter, the performance of the proposed  
deep learning method on sentiment classification is better than the state of the art surface learning models such as  
SVM or NB, which proves that DBN is suitable for short-length document classification with the proposed feature  
dimensionality extension method.  
Key words: Social network; Deep Belief Nets (DBN); Extended multi-modality features; Restricted Boltzmann  
Machine (RBM); Classification restricted Boltzmann machine  
1 引言  
角色不仅仅是人与人之间的交流工具,还作为一种  
情绪宣泄途径。微博中蕴含的情感信息表征了博主  
的个性偏好甚至政治取向。对微博的情感极性判断  
主要包括文本特征提取和机器学习模型选择等。特  
征提取方法包括基于文本统计[1]和基于知识词典[2]。  
但这些方法大多考虑字符或者词之间词形上的联  
系,词义等内涵信息往往被忽略了,或未被全面考  
虑。  
近年来,随着微博等社交网络平台的普及,其  
收稿日期:2016-09-28;改回日期:2017-05-17;网络出版:2017-06-14  
*通信作者:孙晓
基金项目:国家自然科学基金(61432004),模式识别国家重点实验  
室开放课题(NLPR)(201407345)安徽省自然科学基金(1508085  
QF119),中国博士后科学基金(2015M580532)  
Foundation Items: The National Natural Science Foundation of  
China (61432004), The Open Project Program of the National  
Laboratory of Pattern Recognition (NLPR) (201407345), The  
Natural Science Foundation of Anhui Province (1508085QF119),  
The China Postdoctoral Science Foundation (2015M580532)  
文本的情感分析需要考虑深层词义信息,已有  
研究采用深度学习算法[3](如神经网络语言模型)来  
挖掘深度词义知识基于外部知识库[4](词典)获得  
9 期  
晓等: 基于多维扩展特征与深度学习的微博短文本情感分析  
2049  
词义、语义和句法结构等等。文献[5]将原始领域情  
感词典转换为新领域的情感词典,可以直接表达新  
领域的情感特征而用于跨领域情感分析[6]  
使用情感词作为附加特征并结合领域特征,实验表  
明使用语义特征处理文本,能够获得比词频特征更  
高的召回率和 F1 值。文献[7],文献[8]和文献[9]等  
通过构建句子语法解析树来发掘词之间的从属关  
系,解析树包含整个句子的语义结构和单词的语法  
角色。面向情感计算的机器学习模型,从层次结构  
要分为两类层学习模型和深层学习模型。  
文献[10]比较了浅层机器学习算法(朴素贝叶斯和 N  
元文法模型)在电影评论情感分类中的效果出以  
上方法均可达到 80%左右的准确率。浅层的学习模  
型需要大量的实验标注数据和人工设计的特征,并  
且这些模型的共同特点是函数计算复杂以及数据表  
征的层次有限。近年深度学习在图像和语音处理等  
热门研究中获得了广泛的关注,深度学习可以通过  
构建非线性多层网络结构来学习复杂函数[11]  
提出了将深度学习方法用于文本分类,使用学习到  
的高层次抽象特征训练的线性分类器比传统分类器  
表现更好[12]证实了深度学习在自然语言处理  
中的有效性证了它学习深度结构化知识(如文本  
的语义信息)的能力度学习相对浅层学习模型能  
够更好地解决分类中的特征提取和模型复杂度问  
题,但目前深度学习更多地用于长文本分类,因为  
微博句子短,无法利用深度学习模型进行很好地表  
类的深度信念网络(DBN)模型DBN 模型由分类受  
限玻尔兹曼机(ClassRBM)[19-21] 层和几层受限玻尔  
兹曼机(RBM)叠加构成(3)通过实验选择适当的特  
征集和深度学习的网络结构,并在新浪微博语料和  
公开数据集上与现有模型进行了比较。  
2 多维扩展特征提取  
本文提出一种扩展多维特征提取方法来扩展中  
文微博情感分析问题中的短文本特征表示。扩展多  
维特征融合了基于文本的多粒度特征和基于微博社  
交关系网络的多维特征。  
2.1 文本级特征提取  
文本级的特征提取首先需要对句子进行分词,  
并对其中所有情感词的情感进行标记,其中每个词  
都有一个情感值(情感词典中获取)后进一步对已  
分词的微博进行语义结构分析,分析其中的情感词  
修饰词,如否定词、程度词等。否定词会改变情感  
词极性,程度词会增强或削弱句子情感强度。  
1 包含了实验中使用的部分程度词(57 )和否定  
(37 )。  
1 部分程度词和否定词  
程度词  
否定词  
很,太,非常,十分,特别, 不,非,无,勿,莫,不用,  
尤其,真, 不够,没有,未曾,   
程度词的值称之为程度影响指数(DIV)定词  
的值称之为否定影响指数(NIV), DIVNIV均可从  
情感词典中获取。通过遍历微博的语法结构树,标  
记出微博的程度词和否定词。情感词(w )的情感值  
将被改变。其最终的情感分数(FEMV)通过式(1)进  
行计算。  
[13,14]果较好的是基于卷积神经网络和基于递归  
神经网络模型的方[15-18] ,例如,通过融合字和词  
特征来扩展特征的方法[15]。但是在这些工作中,主  
要是对英文评论中的句子本身进行建模,虽然该方  
法可以对句子本身进行更好的向量表示,但是针对  
中文微博并不一定完全适用,中文微博文本长度更  
短,不规范与口语化表现得更明显。仅依赖与句子  
本身信息易获得其结构特征以及情感语义信息。  
对于中文微博情感识别问题在以下的特点:  
中文微博长度短,句法结构不规范。另外,微博的  
短文本导致传统的特征提取方法存在比较严重的特  
征稀疏问题。本文针对中文微博情感分类中存在的  
问题,(1)提出了一种多维扩展特征提取方法。相比  
传统的特征提取方法,本文方法在提取微博文本特  
征的时候入微博的评论以及社交网络关系(包括  
评论和评论人与博主的关系)作为微博的扩展特征。  
(2)深度学习通过学习深层的非线性的网络结构能够  
实现任意复杂函数的逼近,同时深度学习强大的特  
征学习能力可以从少量的样本集中抓取到数据的本  
质特征,本文依据深度学习原理构建了面向短文分  
m
m
FEMV(w) =  
DIV  
NIVj EMV(w)  
(1)  
i
i=1  
j=1  
其中m 是修饰情感w 的程度词个数n 是修饰  
情感w 的否定词个数, DIV i 个程度词的程  
i
度影响指数,NIV i 个否定词的否定影响指数,  
i
EMV(w)是情感w 的情感值。最后,情感词的最  
终情感值将用于抽取基于文本的多粒度特征。  
2.2 社交关系网络特征提取  
微博具有点对点关注和公开传播的特点。微博  
中相对稳定的关注者之间的互动往往持有同样观点  
与情感。微博社交网络关系反映了帖子和评论之间  
的连接,进而反映了帖子和评论之间的情感关联。  
社交网络将所有的微博置于一个图中1 所示,  
节点 P 代表用户,数字表示用户某段时间发布的微  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载