推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Word2Vec和LDA主题模型的Web服务聚类方法

更新时间:2019-12-30 13:04:15 大小:991K 上传用户:IC老兵查看TA发布的资源 标签:Web服务 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

为高效地发现满足用户需求的Web服务,针对Web服务的描述文本较短、缺乏足够有效信息的问题,提出一种基于Word2Vec和LDA主题模型的Web服务聚类方法。该方法首先将Wikipedia语料库作为扩充源,使用word2vec对Web服务描述文档内容进行扩充,再将扩充后的描述文档利用主题模型进行特征建模,将短文本主题建模转化为长文本主题建模,更准确地实现服务内容主题表达,最后根据文档的主题分布矩阵寻找相似的服务并完成聚类,使用从ProgrammableWeb收集的真实数据进行实验。研究结果表明:本文方法与TFIDF-K,LDA,WT-LDA和LDA-K方法相比,F分别提高419.74%,20.11%,15.60%和27.80%,利用扩充后的Web服务的描述文档进行聚类的方法能够有效提高Web服务聚类的效果。


部分文件列表

文件名 大小
1577682248基于Word2Vec和LDA主题模型的Web服务聚类方法.pdf 991K

部分页面预览

(完整内容请下载后查看)
49 12 期  
2018 12 月  
中南大学学报(自然科学版)  
Journal of Central South University (Science and Technology)  
Vol.49 No.12  
Dec. 2018  
DOI: 10.11817/j.issn.1672−7207.2018.12.011  
基于 Word2Vec LDA 主题模型的 Web 服务聚类方法  
肖巧翔 1,曹步清 1, 2,张祥平 1,刘建勋 1,李晏新闻 3  
(1. 湖南科技大学 计算机科学与工程学院,湖南 湘潭,411201;  
2. 北京邮电大学 网络与交换技术国家重点实验室,北京,100876;  
3. 泉州师范学院 航海学院,福建 泉州,362699)  
摘要:为高效地发现满足用户需求的 Web 服务,针对 Web 服务的描述文本较短、缺乏足够有效信息的问题,提  
出一种基Word2Vec LDA 主题模型Web 服务聚类方法方法首先Wikipedia 语料库作为扩充源使用  
word2vec Web 服务描述文档内容进行扩充,再将扩充后的描述文档利用主题模型进行特征建模,将短文本主  
题建模转化为长文本主题建模,更准确地实现服务内容主题表达,最后根据文档的主题分布矩阵寻找相似的服务  
并完成聚类,使用ProgrammableWeb 收集的真实数据进行实验。研究结果表明:本文方法TFIDF-KLDA,  
WT-LDA LDA-K 方法相比,F 分别提419.74%20.11%15.60%27.80%,利用扩充后Web 服务的描述  
文档进行聚类的方法能够有效提Web 服务聚类的效果。  
关键词:Web 服务;Word2VecLDA 主题模型;K-means 算法;Web 服务聚类  
中图分类号TP301  
文献标志码:A  
文章编号:1672−7207(2018)12−2979−07  
Web services clustering based on Word2Vec and LDA topic model  
XIAO Qiaoxiang1, CAO Buqing1, 2, ZHANG Xiangping1, LIU Jianxun1, LI Yanxinwen3  
(1. Hunan University of Science & Technology, Xiangtan 411201, China;  
2. State Key Laboratory of Networking and Switching Technology,  
Beijing University of Posts and Telecommunications, Beijing 100876, China;  
3. College of Navigation, Quanzhou Normal University, Quanzhou 362699, China)  
Abstract: Considering that the description text of Web service is short and lack of enough effective information, a Web  
service clustering method was proposed based on Word2Vec and LDA topic model in order to find the Web service that  
meets user’s needs efficiently. Firstly, Wikipedia corpus was used as an extension source, and Word2Vec was used to  
extend the content of Web service description document, and then the expanded description document was modeled using  
the topic model. The short text topic modeling was transformed into a long text topic modeling, which achieved the topic  
of service content expression more accurately. Finally the similar service was found based on the topic distribution matrix  
of the document and the clustering was completed. Real data from ProgrammableWeb was used to carry out experiments.  
The results show that F obtained by the method increases by 419.74%, 20.11%, 15.60%, 27.80%, respectively, compared  
with those using TFIDF-K, LDA, WT-LDA and LDA-K. The use of extended Web service description documents  
clustering method can effectively improve the effectiveness of Web service clustering.  
Key words: Web services; Word2Vec; LDA topic model; K-means algorithm; Web service clustering  
收稿日期:2018−01−12修回日期:2018−03−21  
基金项目(Foundation item)国家自然科学基金资助项目(61873316, 61872139);湖南省自然科学基金资助项目(2017JJ2098);网络与交换技术国家  
重点实验室(京邮电大学)放课题 (SKLNST-2016-2-26)(Projects(61873316, 61872139) supported by the National Natural Science  
Foundation of China; Project(2017JJ2098) supported by the Natural Science Foundation of Hunan Province; Project(SKLNST-2016-2-26)  
supported by the Open Foundation of State Key Laboratory of Networking and Switching Technology (Beijing University of Posts and  
Telecommunications)  
通信作者:曹步清,博士,副教授,从事服务计算与云计算等方面的研究;E-mail
中南大学学报(自然科学版)  
49 卷  
2980  
近年来,随着互联网技术的快速发展,Web 服务  
这使得主题模型提取的 Web 服务隐含主题信息不够  
准确,虽然当前有些主题模型在训练过程中引入了辅  
助信息,Web 服务的标签信息、词聚类信息等,但  
相比传统的 LDA 主题模型[12],改进现有的主题模型  
Web 服务聚类准确率的提升并不明显对这一问  
文提出一种基Word2Vec LDA 主题模型的  
Web 服务聚类方法。利Word2Vec Web 服务的短  
文本进行扩充,能够获得额外的文本信息,将短文本  
技术作为服务计算(SOC)和面向服务架构(SOA)的主  
要实现技术已经得到广泛应用[1]。通常,单Web 服  
务所提供的功能并不能满足用户多功能的需求。开发  
人员更倾向于通过以松散耦合的方式组合现有的基于  
RESTful Web 服务来创建多功能Mashup 服务。  
由于 Mashup 服务具有易编程和开发周期短等特性,  
Mashup 服务变得越来越流行[2]传统Web  
服务相比,Mashup 服务缺少规范的形式化描述模型, 主题建模转化为长文本主题建模,使得主题模型能够  
Mashup 服务的描述文本内容过少、描述语言不规  
范等,这些都增加了 Mashup 服务查找与发现的难  
[3]。如何发现适合的 Mashup 服务是 Web 服务发现  
所面临的一个重要问题。Web 服务聚类技术是用于提  
Web 服务发现精度的一种重要技术[4]Web 服  
务按照其功能属性进行划分,使得划分到相同簇中的  
Web 服务功能相似度较高同簇中Web 服务功能  
相似度较低过计Web 服务功能相似度的聚类方  
够有效提Web 服务搜索引擎的查找效率目  
前,国内外研究者Web 服务聚类进行了大量研究。  
现有的关于 Web 服务聚类的研究主要聚焦于 Web 服  
务功能属性的聚类研究于功能Web 服务聚类主  
要依据的是 Web 服务功能的相似性而将它们聚到具  
有相似功能的类簇中YU [5]提出一种基于服  
务和操作联合聚类的服务社区学习算法,把具有相似  
功能的服务聚类为同构服务社区[46]WSDL  
文档中抽取关键特征于表1 Web 服务后,  
基于这些特征Web 服务之间的相似性服务  
聚类到功能相似的类簇。也有许多方法引入许多辅助  
信息来改善主题模型的训练过程[7−9],例如,CHEN  
[7−8]使用 WSDL 文档和 Tag 信息作为输入信息,分  
别计算获WSDL 文档相似性Tag 相似性合成  
2 种相似性实现服务聚类。黄媛等[9]也提出一种基  
于标签推荐Web 服务聚类方法方法结合了描述  
文档Web 服务标签来进行聚类征等[10]提出了一  
种基于概率、融合领域特性的服务聚类模型。SHI  
[11]提出一种利用词向量的增LDA(Latent Dirichlet  
Allocation)服务聚类方法。对 Web 服务描述文档中的  
所有词进行聚类,使这些词汇聚类信息参与 LDA 模  
型的训练过程些方法都是通过Web 服务的描述  
文档进行建模,抽取出 Web 服务的关键特征,再对  
Web 服务进行聚类。但目前大部分主题模型都无法对  
这类缺乏训练语料库的短文本进行较好建模。由于原  
始描述文档包含较少信息并且使用自然语言来描述,  
有效地估计Web 服务描述文本的隐含主题高聚  
类的精度。再将这些扩充后具有额外信息的描述文档  
LDA 主题建模,从而获得更加准确的聚类效果。  
1 预备知识  
1.1 Word2vec 文本扩充  
Web 服务的描述文本通常比较短,如在本文中使  
用的数据集均每一Web 服务的描述文档仅包含  
24.16 个词。直接利LDA 等主题建模方法难以有效  
地估计出服务的隐含主题Web 服务的  
描述文本进行扩充。  
Word2vec[13]能够1 个词转化1 个词向量并  
且该词向量包含了上下文信息。词向量可以表示为:  
v(w)Rm ,其wD w 表示语料库中的词,D 表  
示语料库,ν(w)就称w 的词向量,m 为的词向量的  
维数。在训练出来的词向量模型中,意思越相近的词  
的词向量在词向量空间中的距离也就越近,它们之间  
具有相近的语义以及语法关系以被用于文本扩充。  
本文利用 Word2vec 训练出维基百科(Wikipedia)  
英文语料库的词向量模型。本文使用的 Wikipedia 英  
文语料库数据量大,共有 11GB。因此,采用的是基  
于负采样CBOW(continuous bag of words)模型。假  
(wCw )是从训练数据D 提取出来的词及其上下  
文信息 Cw 信息对。那么通过周围词来预测当前词 w  
的概率如下:  
1
p(w | Cw ) =  
(1)  
1+ ev  
cwWw  
式中Ww 为神经网络隐藏层Softmax 层的参数v  
为上下Cw 中每个词的向量之和。  
cw  
CBOW 模型训练目标的极大似然估计函数达  
式如下:  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载