推荐星级:
- 1
- 2
- 3
- 4
- 5
基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展
资料介绍
主题漂移和词不匹配是自然语言处理中一个难题,文本挖掘与信息检索的结合有助于解决该问题.鉴于此,本文提出一种基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展算法.该算法采用新的完全加权正负项集支持度和关联度计算方法以及模式评价框架,对初检用户相关反馈文档集挖掘与原查询词相关的正负关联模式,从模式中提取扩展词实现跨语言查询译后扩展.与现有基于伪相关反馈、加权关联模式挖掘的跨语言扩展算法比较,本文算法能有效地减少查询主题漂移和词不匹配问题,提高跨语言信息检索性能;本文模式挖掘方法可用于推荐系统,提高其准确性.
部分文件列表
文件名 | 大小 |
基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展.pdf | 2M |
部分页面预览
(完整内容请下载后查看)12
Vol. 46 No. 12
Dec. 2018
第
期
电
子
学
报
2018
12
ACTA ELECTRONICA SINICA
年
月
基于完全加权正负关联模式挖掘的
-
越 英跨语言查询译后扩展
1,2
1,2
,
黄名选 蒋曹清
( 1.
( ) , 530003;
广西跨境电商智能信息处理重点实验室培育基地 广西财经学院 广西南宁
2.
,
广西财经学院信息与统计学院 广西南宁
530003)
:
, .
主题漂移和词不匹配是自然语言处理中一个难题 文本挖掘与信息检索的结合有助于解决该问题 鉴
摘
要
, - .
于此 本文提出一种基于完全加权正负关联模式挖掘的越 英跨语言查询译后扩展算法 该算法采用新的完全加权正
,
负项集支持度和关联度计算方法以及模式评价框架 对初检用户相关反馈文档集挖掘与原查询词相关的正负关联模
, . 、
式 从模式中提取扩展词实现跨语言查询译后扩展 与现有基于伪相关反馈 加权关联模式挖掘的跨语言扩展算法比
, , ;
较 本文算法能有效地减少查询主题漂移和词不匹配问题 提高跨语言信息检索性能 本文模式挖掘方法可用于推荐
,
系统 提高其准确性
.
:
;
;
;
;
;
关键词
中图分类号
URL: http: / /www. ejournal. org. cn
自然语言处理 信息检索 文本挖掘 模式挖掘 查询扩展 推荐系统
TP311 0372-2112 ( 2018) 12-3029-08
DOI: 10. 3969 /j. issn. 0372-2112. 2018. 12. 029
:
:
A
:
文章编号
文献标识码
电子学报
Vietnamese-English Cross Language Query
Post-Translation Expansion Based on All-Weighted
Positive and Negative Association Patterns Mining
1,2
1,2
HUANG Ming-xuan ,JIANG Cao-qing
( 1. Guangxi Key Laboratory Cultivation Base of Cross-border E-commerce Intelligent Information Processing,
Guangxi University of Finance and Economics,Nanning,Guangxi 530003,China;
2. School of Information and Statistics,Guangxi University of Finance and Economics,Nanning,Guangxi 530003,China)
Abstract: Topic drift and word mismatch are a difficult problem in natural language processing. The combination
of text mining and information retrieval can help to solve the problem. In view of this,this paper proposes an algorithm
of Vietnamese-English cross language ( VECL) query post-translation expansion based on all-weighted positive and
negative association pattern mining. The algorithm utilized a computing method of support and correlation degree of all-
weighted positive and negative itemset,and mined the all-weighted positive and negative association pattern related to
the original query by the pattern evaluation framework in the user relevance feedback document set from the VECL first
retrieval results. The expansion terms were extracted from the patterns in order to carry out VECL query post-translation
expansion. A comparison between the proposed algorithm and the existing cross language query expansion algorithms
based on pseudo relevance feedback and weighted association pattern mining is made,which shows that the former can
effectively reduce the problems of query topic drift and word mismatch,and improve the performance of cross language
information retrieval. And moreover,the method of pattern mining in this paper can be used in recommender systems
and improve its accuracy.
Key words: natural language processing; information retrieval; text mining; pattern mining; query expansion; recom-
mender system
: 2017-09-07;
: 2018-05-28; :
责任编辑 覃怀银
收稿日期
修回日期
:
基金项目 国家自然科学基金
( No. 61762006,No. 61662003,No. 61262028)
3030
2018
年
电
子
学
报
2
面向跨语言查询扩展的完全加权正负关联
模式挖掘
1
引言
,
当前 跨语言信息检索是自然语言处理领域里一
2. 1
, 、
个的研究热点 长期受到查询主题漂移 词不匹配以及
融合项权值和频度的完全加权项集支持度
,
针对现有支持度计算方法的缺陷 本文提出融合
.
查询项 翻 译 歧 义 和 多 义 等 困 扰 跨 语 言 查 询 扩 展
I
项权值和频度的完全加权项集 支持度
( New all-weigh-
( Cross-Language Query Expansion,CLQE)
是解决该类问
[1,2]
[3 ~ 11]
ted Itemset Support,NawISup)
,
的 计 算 方 法 如 式
( 1 )
,
题的核心技术之一 分为译前扩展
、
译后扩展
[12 ~ 14]
:
.
,
近几年来 基于关联规则挖掘的查
所示
和混合式扩展
n
w
, , [9]
询译后扩展得到了研究 例如 文献 提出在平行语
I
I
NawISup( I) =
×
+ ( 1 - ) ×
( 1)
W
为文档集中文档总数和所有特征词项目
α
α
n
W × k
,
料全局文档中挖掘译后查询项实现译后扩展检索 文
,n
其中
和
[10,11]
献 提出基于加权关联规则挖掘的跨语言译后
,n
I
,w
I
为 在文档
权值总和
为
在文档集中出现的频度
,k ( 0,1)
的长度 &∈ 为插值
,
扩展方法 都能提高和改善跨语言检索性能
.
I
I
I
,
集中的项集权值总和
为
基于关联规则挖掘的跨语言译后扩展核心问题是
.
系数
.
如何计算关联模式支持度 常见支持度计算主要有四
( 1)
,
在式
及正负关联规则
( all-weighted Association Rule Confidence,awARConf)
基础上 本文给出完全加权负项集支持度
: ( 1)
种
将关联模式在事务文档中发生的概率作为该模
[9]
( I I ,I I , I I )
置信度
→
→
→
1 2
; ( 2)
式的支持度
乘积作为加权项集支持度
值与无 加 权 支 持 度 的 乘 积 作 为 完 全 加 权 项 集 支 持
将项目权值总和与无加权支持度的
1
2
1
2
﹁
﹁
[15]
; ( 3)
将特征词项目平均权
的
,
计算公式 如式
( 2) ( 7)
至
.
所示
[11,16]
; ( 4)
度
以项集在事务数据库中项集权值总和占事
NawISup(
I) = 1 - NawISup( I)
( 2)
﹁
务数据库中所有项目权值总和的百分比作为完全加权
NawISup( I
I ) = NawISup( I ) - NawISup( I I )
∪
2
∪
1
2
1
1
﹁
[10,17]
.
[17] , ( 4)
文献 表明 方法 挖掘效果比
项集支持度
( 3)
( 3)
. ,
的好 然而 方法
( 4)
只考虑特征词项目权值对
方法
NawISup(
I
I ) = NawISup( I ) - NawISup( I I )
∪ ∪
1
1
2
2
2
﹁
,
支持度的影响 忽略特征词频度对支持度的作用
.
( 4)
,
当前 跨语言查询扩展研究主要针对大语种以及
NawISup( I I )
∪
2
1
, .
欧洲国家语言等等 而针对东盟语言的报道不多 鉴于
awARConf( I I ) =
→
2
( 5)
1
NawISup( I )
1
, ,
此 本文以东盟语言为研究对象 提出基于完全加权正
NawISup( I ) - NawISup( I I )
∪
2
2
1
- .
负关联模式挖掘的越 英跨语言查询译后扩展算法 该
awARConf(
I
I ) =
2
→
1
﹁
1 - NawISup( I )
1
算法采用新的完全加权正负项集支持度和关联度计算
( 6)
,
方法以及模式评价框架 对跨语言初检用户相关反馈
awARConf( I
I ) = 1 - awARConf( I I ) ( 7)
→
1
→
1
2
2
. 、
文档集挖掘译后查询扩展词 与单语言 跨语言检索基
﹁
、
准和现有基于伪相关反馈 加权关联模式挖掘的跨语
2. 2
完全加权正负项集关联度
,
言查询扩展算法比较 本文算法能有效地减少跨语言
,
针对现有关联度的缺陷 本文提出完全加权正项
,
信息检索中查询主题漂移和词不匹配问题 提高和改
PI( Positive Itemset) ( all-weighted PI Relevan-
关联度
( 8)
集
.
善跨语言检索性能 本文模式挖掘方法在推荐系统具
cy,awPIR)
:
所示
的计算如式
,
有一定的应用价值 能提高其准确性
.
NawISup( PI)
=
,
m = 2
NawISup( t )
k
awPIR( PI) =
( 8)
1
2
1
1
{
× NawISup( PI) × (
+
) , m > 2
NawISup( t ) NawISup( I )
q
k
,m
PI
,t ( 1
k
k
" "
m)
PI
,
同理 完全加权负项集
NI( Negative Itemset)
其中
其支持度最大的单项目
- 1) _
为
的长度
是
的所有项目中
关联度
的计算
,I
q
PI
2_ ( m
的所有 子项集至
( all-weighted Negative Itemset Relevancy,awNIR)
为
.
( 9)
:
所示
子项集中其支持度最大的子项集
如式
NawISup( NI)
=
,
r = 2
1 - NawISup( t )
p
awNIR( NI) =
( 9)
1
2
1
1
{
× NawISup( NI) × (
+
) , r > 2
1 - NawISup( t ) 1 - NawISup( I )
s
p
全部评论(0)