推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展

更新时间:2019-12-24 07:46:23 大小:2M 上传用户:守着阳光1985查看TA发布的资源 标签:文本挖掘 下载积分:1分 评价赚积分 (如何评价?) 收藏 评论(0) 举报

资料介绍

主题漂移和词不匹配是自然语言处理中一个难题,文本挖掘与信息检索的结合有助于解决该问题.鉴于此,本文提出一种基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展算法.该算法采用新的完全加权正负项集支持度和关联度计算方法以及模式评价框架,对初检用户相关反馈文档集挖掘与原查询词相关的正负关联模式,从模式中提取扩展词实现跨语言查询译后扩展.与现有基于伪相关反馈、加权关联模式挖掘的跨语言扩展算法比较,本文算法能有效地减少查询主题漂移和词不匹配问题,提高跨语言信息检索性能;本文模式挖掘方法可用于推荐系统,提高其准确性.


部分文件列表

文件名 大小
基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展.pdf 2M

部分页面预览

(完整内容请下载后查看)
12  
Vol. 46 No. 12  
Dec. 2018  
2018  
12  
ACTA ELECTRONICA SINICA  
全加挖掘的  
-
语言扩展  
12  
12  
名选 蒋清  
( 1.  
( ) 530003;  
广西能信重点实验室广西学院 广西宁  
2.  
广西学院信与统计学院 广西宁  
530003)  
:
.  
匹配语言中一难题 文本挖掘结合有助于解该问题  
- .  
本文提出一种基全加挖掘语言扩展采用全加正  
方法以及框架 户相关挖掘相关模  
、  
式 从扩展语言扩展 与现有基相关挖掘语言扩展比  
, , ;  
较 本文法能有匹配问题 语言本文挖掘方法可用于  
统 提性  
:
;
;
;
;
;
关键词  
中图分类号  
URL: http: / /www. ejournal. org. cn  
语言文本挖掘 挖掘 扩展 统  
TP311 0372-2112 ( 2018) 12-3029-08  
DOI: 10. 3969 /j. issn. 0372-2112. 2018. 12. 029  
:
:
A
:
文章编号  
文献标识码  
电子学报  
Vietnamese-English Cross Language Query  
Post-Translation Expansion Based on All-Weighted  
Positive and Negative Association Patterns Mining  
12  
12  
HUANG Ming-xuan JIANG Cao-qing  
( 1. Guangxi Key Laboratory Cultivation Base of Cross-border E-commerce Intelligent Information Processing,  
Guangxi University of Finance and EconomicsNanningGuangxi 530003China;  
2. School of Information and StatisticsGuangxi University of Finance and EconomicsNanningGuangxi 530003China)  
Abstract: Topic drift and word mismatch are a difficult problem in natural language processing. The combination  
of text mining and information retrieval can help to solve the problemIn view of thisthis paper proposes an algorithm  
of Vietnamese-English cross language ( VECL) query post-translation expansion based on all-weighted positive and  
negative association pattern mining. The algorithm utilized a computing method of support and correlation degree of all-  
weighted positive and negative itemsetand mined the all-weighted positive and negative association pattern related to  
the original query by the pattern evaluation framework in the user relevance feedback document set from the VECL first  
retrieval results. The expansion terms were extracted from the patterns in order to carry out VECL query post-translation  
expansion. A comparison between the proposed algorithm and the existing cross language query expansion algorithms  
based on pseudo relevance feedback and weighted association pattern mining is madewhich shows that the former can  
effectively reduce the problems of query topic drift and word mismatchand improve the performance of cross language  
information retrieval. And moreoverthe method of pattern mining in this paper can be used in recommender systems  
and improve its accuracy.  
Key words: natural language processing; information retrieval; text mining; pattern mining; query expansion; recom-  
mender system  
: 2017-09-07;  
: 2018-05-28; :  
责任编辑 覃怀银  
收稿日期  
修回日期  
:
基金项目 国家科学基金  
( No. 61762006No. 61662003No. 61262028)  
3030  
2018  
2
查询加权  
挖掘  
1
引言  
当前 语言语言领域一  
2. 1  
、  
的研究移 词匹配以及  
值和加权度  
方法的文提出合  
语 言 扩 展  
I
值和频度全加度  
( New all-weigh-  
( Cross-Language Query ExpansionCLQE)  
是解问  
12]  
3 ~ 11]  
ted Itemset SupportNawISup)  
的 计 方 法 式  
( 1 )  
技术一 分展  
展  
12 ~ 14]  
:
挖掘查  
所示  
和混合式扩展  
n
w
, , 9]  
扩展得到了研究 提出语  
I
I
NawISup( I) =  
×
+ ( 1 - ) ×  
( 1)  
W
为文数和特征项目  
α
α
n
W × k  
挖掘项实扩展检文  
n  
中  
1011]  
提出挖掘语言后  
n  
I
w  
I
档  
和  
出现频度  
k ( 01)  
&值  
扩展方法 都能改善语言能  
I
I
I
中的项和  
挖掘语言扩展问题是  
数  
有四  
( 1)  
式  
则  
( all-weighted Association Rule ConfidenceawARConf)  
础上 本文全加度  
: ( 1)  
中发模  
9]  
( I I I I I I )  
度  
1 2  
; ( 2)  
度  
度  
值与全 加 持  
项目和与的  
1
2
1
2
15]  
; ( 3)  
将特征项目权  
式  
( 2) ( 7)  
所示  
1116]  
; ( 4)  
数据中项事  
NawISup(  
I) = 1 - NawISup( I)  
( 2)  
数据有项目全加权  
NawISup( I  
I ) = NawISup( I ) - NawISup( I I )  
2
1
2
1
1
1017]  
17, ( 4)  
表明 方法 挖掘效果比  
度  
( 3)  
( 3)  
,  
然而 方法  
( 4)  
考虑特征项目对  
方法  
NawISup(  
I
I ) = NawISup( I ) - NawISup( I I )  
∪ ∪  
1
1
2
2
2
影响 忽略特征频度用  
( 4)  
当前 语言扩展研究及  
NawISup( I I )  
2
1
.  
国家语言等等 而针语言的报于  
awARConf( I I ) =  
2
( 5)  
1
NawISup( I )  
1
, ,  
本文语言研究对提出全加正  
NawISup( I ) - NawISup( I I )  
2
2
1
- .  
挖掘语言扩展该  
awARConf(  
I
I ) =  
2
1
1 - NawISup( I )  
1
采用全加算  
( 6)  
方法以及框架 语言户相关馈  
awARConf( I  
I ) = 1 - awARConf( I I ) ( 7)  
1
1
2
2
、  
挖掘扩展与单语言 语言基  
和现有基相关挖掘语  
2. 2  
加权度  
扩展较 本文法能有语言  
本文提出项  
匹配问题 改  
PI( Positive Itemset) ( all-weighted PI Relevan-  
度  
( 8)  
语言本文挖掘方法在具  
cyawPIR)  
:
所示  
的计式  
有一应用价值 性  
NawISup( PI)  
=
m = 2  
NawISup( t )  
k
awPIR( PI) =  
( 8)  
1
2
1
1
{
× NawISup( PI) × (  
+
) , m > 2  
NawISup( t ) NawISup( I )  
q
k
m  
PI  
t ( 1  
k
k
" "  
m)  
PI  
同理 全加集  
NI( Negative Itemset)  
中  
大的项目  
- 1) _  
度  
有项目中  
度  
的计算  
I  
q
PI  
2_ ( m  
有 子项至  
( all-weighted Negative Itemset RelevancyawNIR)  
( 9)  
:
所示  
子项大的子项集  
式  
NawISup( NI)  
=
r = 2  
1 - NawISup( t )  
p
awNIR( NI) =  
( 9)  
1
2
1
1
{
× NawISup( NI) × (  
+
) , r > 2  
1 - NawISup( t ) 1 - NawISup( I )  
s
p

全部评论(0)

暂无评论