推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

面向App用户评论的软件特征挖掘研究

更新时间:2020-01-01 22:24:34 大小:1M 上传用户:songhuahua查看TA发布的资源 标签:软件特征挖掘 下载积分:1分 评价赚积分 (如何评价?) 收藏 评论(0) 举报

资料介绍

面对数量巨大、信息非结构化的App用户评论,获取软件特征有助于App开发者进一步探索用户的特征请求及潜在需求。文章针对App用户评论的特性,提出新的App软件特征挖掘方法,以Apple App Store里真实的App用户评论为实验对象,收集、预处理评论数据,并进行特征挖掘。实验结果显示,识别特征请求评论范围具有一定的必要性以及提取软件特征具有较高的准确性,由此验证了本文方法的有效性。


部分文件列表

文件名 大小
面向App用户评论的软件特征挖掘研究.pdf 1M

部分页面预览

(完整内容请下载后查看)
数字图书·术平台  
面向 App 用户评论的软件特征挖掘研究  
吕宏玉 1,樊 坤 2△,杨建林 1 1.南京大学信息管理学院  
2.北京林业大学经济管理学)  
要:面对数量巨大、信息非结构化的 App 用户评论,获取软件特征有助于 App 开发者进一步探索用户的特  
征请求及潜在需求。文章针对 App 用户评论的特性,提出新的 App 软件特征挖掘方法,以 Apple App Store 里真  
实的 App 用户评论为实验对象,收集、预处理评论数据,并进行特征挖掘。实验结果显示,识别特征请求评论  
范围具有一定的必要性以及提取软件特征具有较高的准确性,由此验证了本文方法的有效性。  
关键词:App 软件;用户评论;软件特征;特征挖掘  
中图分类号:TP391.1  
文献标志码:B  
文章编号:1005-8214201907-0106-07  
Research on Software Feature Mining for App User Reviews  
Lv Hong-yu,Fan Kun,Yang Jian-lin  
Abstract: In accordance with the characteristics of App user reviews, the paper proposes a new App software feature mining  
method. Taking the real App user reviews in Apple App Store as experiment subjects, the paper collects and preprocesses a large  
number of reviews, then uses the above method to mine the software features. The experimental results show that it is necessary to  
identify the comment range of feature request and it has a high accuracy of the extraction of software features, which verify the ef-  
fectiveness of the proposed method.  
Keywords: App Software;User Reviews;Software Feature;Feature Mining  
1
引言  
随着移动智能终端的广泛普及和互联网技术的  
但是,开发者从用户评论中获取特征请求具有一  
定难度。一方面,应用商店内评论数据量大[5,11评  
论文本具有非结构化的特点[12另一方面,评论具  
有较大的自由性,评分星级与评论文本具有不对称  
[13即高评分星级对应的评论文本表达负面情感倾  
向,或低评分星级对应的评论文本表达正面情感倾向;  
此外,评论文本质量不一致,部分评论文本只是简单  
地整体评价而非针对特定质量[14-15因此,挖掘用户  
在整篇评论中所表达的情感态度不具有太多的实际意  
义,获取用户反馈的有效途径是挖掘出软件特征再进  
快速推进,应用商店和 App 得到了蓬勃发展,用  
户对于 App 需求被激发1应用商店作为中间平  
台,允许开发者发布以及允许用户搜索、购买、下  
载、评论 App[2评价形式为评分星级、评论标题和  
评论文本构成的单条评论。其中评论文本里的评价对  
象,即用户的关注点称为软件特征[3一般为描述软  
件功能或性能的词或短语[4软件特征为中心的  
文字评价往往包含与需求相关的信息,如错误异常  
反馈 5、用户体验总结 2、功能优化建议 [6、新  
功能提议 [7等内容这些反映用户对 App 改进和演  
化期望的内容被称为特征请求[8因此,获取特征请  
求将有助于开发者初步确定软件质量 [9和修改软件  
[16]  
一步分析用户对具体特征的情感态度。  
目前,学术界在评论文本的特征挖掘领域主要  
从特征频繁项、特征-意见共现关系、模型训练和  
显隐式特征匹配四个方面展开[17现有研究的评论  
对象主要是实体商品,对 App 评论文本提取特征的  
[10]  
下一版本的需求。  
[基 金  本 文 2018 年 系 国 家 会 科 学 基 金 重点 项 目 “ 面 向国 家 发 展 与 安全 决 策 的 情 报 服 务 创 新 研 究 (项 目 编 号 :  
18ATQ003研究成果。  
信作者樊坤,fankun@bjfu.edu.cn  
106  
数字图书·术平台  
相关研究较少。文涛等使用规则模板提取 App 软件  
特征和情感词汇,考虑范围限于显性特征2Guz-  
man 等利用搭配发现算法挖掘用户评论中细粒度的软  
件特征,并使用主题建模技术将软件特征分组成更有  
意义的高级特征[4彭珍连提出一种基于特征模型  
和协同过滤的特征获取方法,该方法可探索出历史  
软件特征之间的关系,可补充 App 缺失特征以及  
预测待开发 App 缺失特征。Johann 应用词类和  
句子模式同时从产品页面和用户评论提取软件特征,  
并对 2 个来源的提取结果进行匹配18冉猛提取用户  
评论中的特征词、副词和情感词,并逐级量化计算用  
3
数据收集与数据处理  
3.1 数据收集  
本文的数据对象是 Apple App Store 内用户对 App  
。本文选取  
发表的评论,数据收集地址为德普优化网  
的 App 来自社交、工具、音乐、摄影和游戏 5 个类别,  
在每个类别中选择最热门的 2 个 App,共计 10 个。  
2018 年 2 月 20 日为时间起点,利用 Python 爬虫程序  
,数量共计 11,437 条,将  
按照逆向时间顺序爬取评论  
该原始评论集合命名为 R0。单条评论收集 5 项内容  
评论时间、用户名、评分星级  
3.2 数据预处理  
、评论标题和评论文本。  
[19]  
户对 App 的情感倾向程度。  
评论集合 R0 包含部分噪音数据,  
因此先进行数据  
为获取软件特征,本文提出新的挖掘方法。具体  
而言,先利用句式匹配和情感倾向相结合的识别方法  
确定包含特征请求的评论,在该范围内使用基于关联  
规则的算法提取软件特征。与现有研究相比,本文的  
不同之处是在提取软件特征之前,从 App 用户评论全  
集中识别出包含特征请求的评论,确定出有效的挖掘  
范围。该方法将帮助 App 开发者从评论中获取用户对  
App 的反馈信息。  
预处理工作,包括 3 种常规去噪处理和 2 种针对 App  
。整个过程通过 Python 程序实现。  
特殊评论的处理  
(1) 中文评论处理。本文提出的软件特征挖掘  
,但评论集合 R0 中含有其他  
方法面向中文用户评论  
语言评论。如以下 2 条对“QQ”的用户评论文本。  
① “ Le logiciel ncessaire la communication de la  
Chine.”  
②“I really really really cant stand the speed of upload-  
ing pictures.”  
2
研究思路和设计  
本文的研究思路是将软件特征挖掘分为 4 个步  
本文先去除评论集合 R0 评论文本中的标点符号  
。对于中文评  
骤进行  评论数据收集:利用爬虫程  
序从网站上收集 Apple App Store App 户评论。  
② 评论数据处理:对收集的用户评论数据进行去噪  
处理,重新整理成结构化的文本语料,并进行分词  
和词性标注。③ 特征请求评论识别:应用句式匹配  
和情感倾向相结合的方法,从评论全集中识别出评  
论文本里包含特征请求的评论。④ 软件特征提取:  
在 特 请 求评 论 范 围内 基 于 关联 规 则 的 算 法 提 取  
App 软件特征。  
判别评论文本的语言,过滤非中文评论  
论中的单个英文词汇,因为多数属于专有名词  
,本文  
保留并做大写转小写的处理。如以下是 1 条“QQ”的  
评论原文及其处理后的结果  
评论原文“iPhoneX 都出来这么久了  
?”  
,QQ 还不  
打算适配吗  
处理结果“iphonex 都出来这么久了,qq 还不打  
?”  
算适配吗  
(2) 关内容评论处理  
。评论集合 R0 中存在部  
分与 App 无关的评论:一种是表达简单情感态度而  
缺少评价对象的评论,评论文本字数一般较少;另  
一种是垃圾评论制造者为吸引浏览者的注意力编写  
的字数过多评论[20如以下 2 条关于“QQ”的用户  
评论文本。  
①“还行”  
②“你不能不知道的某宝某猫购物内幕,省钱党  
首席攻略!惊天地泣鬼神,就在这里发生,花生日记  
通过整合成千上万家的电商商家,向用户每天呈现多  
达几万的品类丰富、实惠、高折扣的商品。适合所有  
网购用户,当前绝佳的省钱利器。安卓用户在应用宝  
或应用商店里搜索花生日记,苹果用户在 app store 搜  
软件特征挖掘流程  
107  

全部评论(0)

暂无评论