您现在的位置是：首页 > 技术资料 > 基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展

推荐星级：

基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展

更新时间：2019-12-24 07:46:23 大小：2M 上传用户：守着阳光1985 查看TA发布的资源 标签：文本挖掘 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

主题漂移和词不匹配是自然语言处理中一个难题,文本挖掘与信息检索的结合有助于解决该问题.鉴于此,本文提出一种基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展算法.该算法采用新的完全加权正负项集支持度和关联度计算方法以及模式评价框架,对初检用户相关反馈文档集挖掘与原查询词相关的正负关联模式,从模式中提取扩展词实现跨语言查询译后扩展.与现有基于伪相关反馈、加权关联模式挖掘的跨语言扩展算法比较,本文算法能有效地减少查询主题漂移和词不匹配问题,提高跨语言信息检索性能;本文模式挖掘方法可用于推荐系统,提高其准确性.

部分文件列表

文件名	大小
基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展.pdf	2M

立即下载

【关注B站账户领20积分】

部分页面预览

（完整内容请下载后查看）

Vol． 46 No． 12

Dec． 2018

第

期

电

子

学

报

2018

ACTA ELECTRONICA SINICA

年

月

基于完全加权正负关联模式挖掘的

越英跨语言查询译后扩展

1，2

，

黄名选蒋曹清

( 1．

( ) ， 530003;

广西跨境电商智能信息处理重点实验室培育基地广西财经学院广西南宁

2．

，

广西财经学院信息与统计学院广西南宁

530003)

，．

主题漂移和词不匹配是自然语言处理中一个难题文本挖掘与信息检索的结合有助于解决该问题鉴

摘

要

， - ．

于此本文提出一种基于完全加权正负关联模式挖掘的越英跨语言查询译后扩展算法该算法采用新的完全加权正

，

负项集支持度和关联度计算方法以及模式评价框架对初检用户相关反馈文档集挖掘与原查询词相关的正负关联模

，．、

式从模式中提取扩展词实现跨语言查询译后扩展与现有基于伪相关反馈加权关联模式挖掘的跨语言扩展算法比

，， ;

较本文算法能有效地减少查询主题漂移和词不匹配问题提高跨语言信息检索性能本文模式挖掘方法可用于推荐

，

系统提高其准确性

．

;

关键词

中图分类号

URL: http: / /www． ejournal． org． cn

自然语言处理信息检索文本挖掘模式挖掘查询扩展推荐系统

TP311 0372-2112 ( 2018) 12-3029-08

DOI: 10． 3969 /j． issn． 0372-2112． 2018． 12． 029

文章编号

文献标识码

电子学报

Vietnamese-English Cross Language Query

Post-Translation Expansion Based on All-Weighted

Positive and Negative Association Patterns Mining

1，2

HUANG Ming-xuan ，JIANG Cao-qing

( 1． Guangxi Key Laboratory Cultivation Base of Cross-border E-commerce Intelligent Information Processing，

Guangxi University of Finance and Economics，Nanning，Guangxi 530003，China;

2． School of Information and Statistics，Guangxi University of Finance and Economics，Nanning，Guangxi 530003，China)

Abstract: Topic drift and word mismatch are a difficult problem in natural language processing． The combination

of text mining and information retrieval can help to solve the problem． In view of this，this paper proposes an algorithm

of Vietnamese-English cross language ( VECL) query post-translation expansion based on all-weighted positive and

negative association pattern mining． The algorithm utilized a computing method of support and correlation degree of all-

weighted positive and negative itemset，and mined the all-weighted positive and negative association pattern related to

the original query by the pattern evaluation framework in the user relevance feedback document set from the VECL first

retrieval results． The expansion terms were extracted from the patterns in order to carry out VECL query post-translation

expansion． A comparison between the proposed algorithm and the existing cross language query expansion algorithms

based on pseudo relevance feedback and weighted association pattern mining is made，which shows that the former can

effectively reduce the problems of query topic drift and word mismatch，and improve the performance of cross language

information retrieval． And moreover，the method of pattern mining in this paper can be used in recommender systems

and improve its accuracy．

Key words: natural language processing; information retrieval; text mining; pattern mining; query expansion; recom-

mender system

: 2017-09-07;

: 2018-05-28; :

责任编辑覃怀银

收稿日期

修回日期

基金项目国家自然科学基金

( No． 61762006，No． 61662003，No． 61262028)

3030

2018

年

电

子

学

报

面向跨语言查询扩展的完全加权正负关联

模式挖掘

引言

，

当前跨语言信息检索是自然语言处理领域里一

2. 1

，、

个的研究热点长期受到查询主题漂移词不匹配以及

融合项权值和频度的完全加权项集支持度

，

针对现有支持度计算方法的缺陷本文提出融合

．

查询项翻译歧义和多义等困扰跨语言查询扩展

项权值和频度的完全加权项集支持度

( New all-weigh-

( Cross-Language Query Expansion，CLQE)

是解决该类问

［1，2］

［3 ～ 11］

ted Itemset Support，NawISup)

，

的计算方法如式

( 1 )

，

题的核心技术之一分为译前扩展

、

译后扩展

［12 ～ 14］

．

，

近几年来基于关联规则挖掘的查

所示

和混合式扩展

，，［9］

询译后扩展得到了研究例如文献提出在平行语

NawISup( I) =

+ ( 1 － ) ×

( 1)

为文档集中文档总数和所有特征词项目

W × k

，

料全局文档中挖掘译后查询项实现译后扩展检索文

，n

其中

和

［10，11］

献提出基于加权关联规则挖掘的跨语言译后

，n

，w

为在文档

权值总和

为

在文档集中出现的频度

，k ( 0，1)

的长度 &∈ 为插值

，

扩展方法都能提高和改善跨语言检索性能

．

，

集中的项集权值总和

为

基于关联规则挖掘的跨语言译后扩展核心问题是

．

系数

．

如何计算关联模式支持度常见支持度计算主要有四

( 1)

，

在式

及正负关联规则

( all-weighted Association Rule Confidence，awARConf)

基础上本文给出完全加权负项集支持度

: ( 1)

种

将关联模式在事务文档中发生的概率作为该模

［9］

( I I ，I I ， I I )

置信度

→

1 2

; ( 2)

式的支持度

乘积作为加权项集支持度

值与无加权支持度的乘积作为完全加权项集支持

将项目权值总和与无加权支持度的

﹁

［15］

; ( 3)

将特征词项目平均权

的

，

计算公式如式

( 2) ( 7)

至

．

所示

［11，16］

; ( 4)

度

以项集在事务数据库中项集权值总和占事

NawISup(

I) = 1 － NawISup( I)

( 2)

﹁

务数据库中所有项目权值总和的百分比作为完全加权

NawISup( I

I ) = NawISup( I ) － NawISup( I I )

∪

﹁

［10，17］

．

［17］， ( 4)

文献表明方法挖掘效果比

项集支持度

( 3)

．，

的好然而方法

( 4)

只考虑特征词项目权值对

方法

NawISup(

I ) = NawISup( I ) － NawISup( I I )

∪ ∪

﹁

，

支持度的影响忽略特征词频度对支持度的作用

．

( 4)

，

当前跨语言查询扩展研究主要针对大语种以及

NawISup( I I )

∪

，．

欧洲国家语言等等而针对东盟语言的报道不多鉴于

awARConf( I I ) =

→

( 5)

NawISup( I )

，，

此本文以东盟语言为研究对象提出基于完全加权正

NawISup( I ) － NawISup( I I )

∪

- ．

负关联模式挖掘的越英跨语言查询译后扩展算法该

awARConf(

I ) =

→

﹁

1 － NawISup( I )

算法采用新的完全加权正负项集支持度和关联度计算

( 6)

，

方法以及模式评价框架对跨语言初检用户相关反馈

awARConf( I

I ) = 1 － awARConf( I I ) ( 7)

→

．、

文档集挖掘译后查询扩展词与单语言跨语言检索基

﹁

、

准和现有基于伪相关反馈加权关联模式挖掘的跨语

2. 2

完全加权正负项集关联度

，

言查询扩展算法比较本文算法能有效地减少跨语言

，

针对现有关联度的缺陷本文提出完全加权正项

，

信息检索中查询主题漂移和词不匹配问题提高和改

PI( Positive Itemset) ( all-weighted PI Relevan-

关联度

( 8)

集

．

善跨语言检索性能本文模式挖掘方法在推荐系统具

cy，awPIR)

所示

的计算如式

，

有一定的应用价值能提高其准确性

．

NawISup( PI)

，

m = 2

NawISup( t )

awPIR( PI) =

( 8)

{

× NawISup( PI) × (

) ， m ＞ 2

NawISup( t ) NawISup( I )

，m

，t ( 1

" "

，

同理完全加权负项集

NI( Negative Itemset)

其中

其支持度最大的单项目

－ 1) _

为

的长度

是

的所有项目中

关联度

的计算

，I

2_ ( m

的所有子项集至

( all-weighted Negative Itemset Relevancy，awNIR)

为

．

( 9)

所示

子项集中其支持度最大的子项集

如式

NawISup( NI)

，

r = 2

1 － NawISup( t )

awNIR( NI) =

( 9)

{

× NawISup( NI) × (

) ， r ＞ 2

1 － NawISup( t ) 1 － NawISup( I )

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

最新上传

打赏
30日榜单

21ic小能手打赏15.00元 2小时前

资料：stm32的单片机带云台智能小车有图像识别
21ic小能手打赏20.00元 7小时前

资料：科创大赛“料理人生”厨房智能机器人项目资料包
21ic小能手打赏8.00元 7小时前

资料：久坐智能提醒坐垫项目申报书资料
21ic小能手打赏5.00元 3天前

资料：STM32单片机UWB定位程序
21ic小能手打赏5.00元 3天前

资料：STM32的小恐龙游戏项目程序
21ic小能手打赏5.00元 3天前

资料：GD32F103VCT6程序代码
21ic小能手打赏5.00元 3天前

资料：msp430的多点测温设计
21ic小能手打赏5.00元 3天前

资料：高频功率放大器设计
21ic小能手打赏5.00元 3天前

资料：基于PID的双轮平衡车
21ic小能手打赏10.00元 3天前

资料：CORTEX-M3内核单片机设计智能开关型电子负载AD版硬件（原理图+PCB）+软件程序源码+论
21ic下载打赏310.00元 3天前

用户：w178191520
21ic下载打赏310.00元 3天前

用户：小猫做电路
21ic下载打赏310.00元 3天前

用户：zhengdai
21ic下载打赏220.00元 3天前

用户：gsy幸运
21ic下载打赏220.00元 3天前

用户：jh0355
21ic下载打赏210.00元 3天前

用户：jh03551
21ic下载打赏60.00元 3天前

用户：sun2152
21ic下载打赏60.00元 3天前

用户：xuzhen1
21ic下载打赏80.00元 3天前

用户：xzxbybd
21ic下载打赏60.00元 3天前

用户：铁蛋锅
21ic下载打赏60.00元 3天前

用户：liqiang9090

21ic下载打赏20.00元 3天前

用户：方中禾
21ic下载打赏20.00元 3天前

用户：w1966891335
21ic下载打赏30.00元 3天前

用户：玉落彼岸
21ic下载打赏15.00元 3天前

用户：kk1957135547
21ic下载打赏15.00元 3天前

用户：w993263495
21ic下载打赏15.00元 3天前

用户：x15580286248
21ic下载打赏20.00元 3天前

用户：WK520077778
21ic下载打赏25.00元 3天前

用户：hp860629
21ic下载打赏15.00元 3天前

用户：sbfd010
21ic下载打赏10.00元 3天前

用户：严光辉
鹏鹏科技打赏1.00元 3天前

资料：Xiaomi 15 Pro Schematic
21ic小能手打赏10.00元 3天前

资料：四层无人机飞控打板文件
21ic小能手打赏5.00元 3天前

资料：AD通用3D封装库
21ic小能手打赏5.00元 3天前

资料：DeepSeek使用教程
21ic小能手打赏5.00元 3天前

资料：STM32F051K8U6库函数点灯例程编译通过
21ic小能手打赏10.00元 3天前

资料：九齐单片机2路PWM控制输出
21ic小能手打赏10.00元 3天前

资料：基于STM32单片机及MAX31865模块实现铂电阻PT100温度采集
21ic小能手打赏20.00元 3天前

资料：毕业设计基于python实现的火车订票管理系统源码+数据库+项目说明
21ic小能手打赏10.00元 3天前

资料：二阶RC有源滤波器的设计报告，完整版

基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页