您现在的位置是：首页 > 技术资料 > 基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展

推荐星级：

基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展

更新时间：2019-12-24 07:46:23 大小：2M 上传用户：守着阳光1985 查看TA发布的资源 标签：文本挖掘 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

主题漂移和词不匹配是自然语言处理中一个难题,文本挖掘与信息检索的结合有助于解决该问题.鉴于此,本文提出一种基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展算法.该算法采用新的完全加权正负项集支持度和关联度计算方法以及模式评价框架,对初检用户相关反馈文档集挖掘与原查询词相关的正负关联模式,从模式中提取扩展词实现跨语言查询译后扩展.与现有基于伪相关反馈、加权关联模式挖掘的跨语言扩展算法比较,本文算法能有效地减少查询主题漂移和词不匹配问题,提高跨语言信息检索性能;本文模式挖掘方法可用于推荐系统,提高其准确性.

部分文件列表

文件名	大小
基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展.pdf	2M

立即下载

【关注B站账户领20积分】

部分页面预览

（完整内容请下载后查看）

Vol． 46 No． 12

Dec． 2018

第

期

电

子

学

报

2018

ACTA ELECTRONICA SINICA

年

月

基于完全加权正负关联模式挖掘的

越英跨语言查询译后扩展

1，2

，

黄名选蒋曹清

( 1．

( ) ， 530003;

广西跨境电商智能信息处理重点实验室培育基地广西财经学院广西南宁

2．

，

广西财经学院信息与统计学院广西南宁

530003)

，．

主题漂移和词不匹配是自然语言处理中一个难题文本挖掘与信息检索的结合有助于解决该问题鉴

摘

要

， - ．

于此本文提出一种基于完全加权正负关联模式挖掘的越英跨语言查询译后扩展算法该算法采用新的完全加权正

，

负项集支持度和关联度计算方法以及模式评价框架对初检用户相关反馈文档集挖掘与原查询词相关的正负关联模

，．、

式从模式中提取扩展词实现跨语言查询译后扩展与现有基于伪相关反馈加权关联模式挖掘的跨语言扩展算法比

，， ;

较本文算法能有效地减少查询主题漂移和词不匹配问题提高跨语言信息检索性能本文模式挖掘方法可用于推荐

，

系统提高其准确性

．

;

关键词

中图分类号

URL: http: / /www． ejournal． org． cn

自然语言处理信息检索文本挖掘模式挖掘查询扩展推荐系统

TP311 0372-2112 ( 2018) 12-3029-08

DOI: 10． 3969 /j． issn． 0372-2112． 2018． 12． 029

文章编号

文献标识码

电子学报

Vietnamese-English Cross Language Query

Post-Translation Expansion Based on All-Weighted

Positive and Negative Association Patterns Mining

1，2

HUANG Ming-xuan ，JIANG Cao-qing

( 1． Guangxi Key Laboratory Cultivation Base of Cross-border E-commerce Intelligent Information Processing，

Guangxi University of Finance and Economics，Nanning，Guangxi 530003，China;

2． School of Information and Statistics，Guangxi University of Finance and Economics，Nanning，Guangxi 530003，China)

Abstract: Topic drift and word mismatch are a difficult problem in natural language processing． The combination

of text mining and information retrieval can help to solve the problem． In view of this，this paper proposes an algorithm

of Vietnamese-English cross language ( VECL) query post-translation expansion based on all-weighted positive and

negative association pattern mining． The algorithm utilized a computing method of support and correlation degree of all-

weighted positive and negative itemset，and mined the all-weighted positive and negative association pattern related to

the original query by the pattern evaluation framework in the user relevance feedback document set from the VECL first

retrieval results． The expansion terms were extracted from the patterns in order to carry out VECL query post-translation

expansion． A comparison between the proposed algorithm and the existing cross language query expansion algorithms

based on pseudo relevance feedback and weighted association pattern mining is made，which shows that the former can

effectively reduce the problems of query topic drift and word mismatch，and improve the performance of cross language

information retrieval． And moreover，the method of pattern mining in this paper can be used in recommender systems

and improve its accuracy．

Key words: natural language processing; information retrieval; text mining; pattern mining; query expansion; recom-

mender system

: 2017-09-07;

: 2018-05-28; :

责任编辑覃怀银

收稿日期

修回日期

基金项目国家自然科学基金

( No． 61762006，No． 61662003，No． 61262028)

3030

2018

年

电

子

学

报

面向跨语言查询扩展的完全加权正负关联

模式挖掘

引言

，

当前跨语言信息检索是自然语言处理领域里一

2. 1

，、

个的研究热点长期受到查询主题漂移词不匹配以及

融合项权值和频度的完全加权项集支持度

，

针对现有支持度计算方法的缺陷本文提出融合

．

查询项翻译歧义和多义等困扰跨语言查询扩展

项权值和频度的完全加权项集支持度

( New all-weigh-

( Cross-Language Query Expansion，CLQE)

是解决该类问

［1，2］

［3 ～ 11］

ted Itemset Support，NawISup)

，

的计算方法如式

( 1 )

，

题的核心技术之一分为译前扩展

、

译后扩展

［12 ～ 14］

．

，

近几年来基于关联规则挖掘的查

所示

和混合式扩展

，，［9］

询译后扩展得到了研究例如文献提出在平行语

NawISup( I) =

+ ( 1 － ) ×

( 1)

为文档集中文档总数和所有特征词项目

W × k

，

料全局文档中挖掘译后查询项实现译后扩展检索文

，n

其中

和

［10，11］

献提出基于加权关联规则挖掘的跨语言译后

，n

，w

为在文档

权值总和

为

在文档集中出现的频度

，k ( 0，1)

的长度 &∈ 为插值

，

扩展方法都能提高和改善跨语言检索性能

．

，

集中的项集权值总和

为

基于关联规则挖掘的跨语言译后扩展核心问题是

．

系数

．

如何计算关联模式支持度常见支持度计算主要有四

( 1)

，

在式

及正负关联规则

( all-weighted Association Rule Confidence，awARConf)

基础上本文给出完全加权负项集支持度

: ( 1)

种

将关联模式在事务文档中发生的概率作为该模

［9］

( I I ，I I ， I I )

置信度

→

1 2

; ( 2)

式的支持度

乘积作为加权项集支持度

值与无加权支持度的乘积作为完全加权项集支持

将项目权值总和与无加权支持度的

﹁

［15］

; ( 3)

将特征词项目平均权

的

，

计算公式如式

( 2) ( 7)

至

．

所示

［11，16］

; ( 4)

度

以项集在事务数据库中项集权值总和占事

NawISup(

I) = 1 － NawISup( I)

( 2)

﹁

务数据库中所有项目权值总和的百分比作为完全加权

NawISup( I

I ) = NawISup( I ) － NawISup( I I )

∪

﹁

［10，17］

．

［17］， ( 4)

文献表明方法挖掘效果比

项集支持度

( 3)

．，

的好然而方法

( 4)

只考虑特征词项目权值对

方法

NawISup(

I ) = NawISup( I ) － NawISup( I I )

∪ ∪

﹁

，

支持度的影响忽略特征词频度对支持度的作用

．

( 4)

，

当前跨语言查询扩展研究主要针对大语种以及

NawISup( I I )

∪

，．

欧洲国家语言等等而针对东盟语言的报道不多鉴于

awARConf( I I ) =

→

( 5)

NawISup( I )

，，

此本文以东盟语言为研究对象提出基于完全加权正

NawISup( I ) － NawISup( I I )

∪

- ．

负关联模式挖掘的越英跨语言查询译后扩展算法该

awARConf(

I ) =

→

﹁

1 － NawISup( I )

算法采用新的完全加权正负项集支持度和关联度计算

( 6)

，

方法以及模式评价框架对跨语言初检用户相关反馈

awARConf( I

I ) = 1 － awARConf( I I ) ( 7)

→

．、

文档集挖掘译后查询扩展词与单语言跨语言检索基

﹁

、

准和现有基于伪相关反馈加权关联模式挖掘的跨语

2. 2

完全加权正负项集关联度

，

言查询扩展算法比较本文算法能有效地减少跨语言

，

针对现有关联度的缺陷本文提出完全加权正项

，

信息检索中查询主题漂移和词不匹配问题提高和改

PI( Positive Itemset) ( all-weighted PI Relevan-

关联度

( 8)

集

．

善跨语言检索性能本文模式挖掘方法在推荐系统具

cy，awPIR)

所示

的计算如式

，

有一定的应用价值能提高其准确性

．

NawISup( PI)

，

m = 2

NawISup( t )

awPIR( PI) =

( 8)

{

× NawISup( PI) × (

) ， m ＞ 2

NawISup( t ) NawISup( I )

，m

，t ( 1

" "

，

同理完全加权负项集

NI( Negative Itemset)

其中

其支持度最大的单项目

－ 1) _

为

的长度

是

的所有项目中

关联度

的计算

，I

2_ ( m

的所有子项集至

( all-weighted Negative Itemset Relevancy，awNIR)

为

．

( 9)

所示

子项集中其支持度最大的子项集

如式

NawISup( NI)

，

r = 2

1 － NawISup( t )

awNIR( NI) =

( 9)

{

× NawISup( NI) × (

) ， r ＞ 2

1 － NawISup( t ) 1 － NawISup( I )

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

最新上传

打赏
30日榜单

21ic小能手打赏10.00元 1天前

资料：STM32F103C8T6对应的流水灯程序
21ic小能手打赏10.00元 1天前

资料：五站小车呼叫停站汇川PLC 触摸屏及数字孪生场景
21ic小能手打赏10.00元 2天前

资料：40个Arduino编程学习例程合集，Arduino程序设计基础实验说明文档
sdqdjqk 打赏1.00元 3天前

资料：单机版DLT645-RS485抄表
21ic小能手打赏10.00元 3天前

资料：AI 数字生活盒（AI Digital Life Box）项目
wisdomlin 打赏1.00元 3天前

资料：JRC4558封装DIP8 电子元器件首鼎集成电路IC
21ic小能手打赏10.00元 3天前

资料：开源无线麦克风（Open-Source Wireless Microphone）项目
799902619 打赏1.00元 3天前

资料：新立新龙软件
21ic小能手打赏10.00元 3天前

资料：FLPowerPro 专业开源电源供应器项目
21ic小能手打赏10.00元 3天前

资料：ESP 智能电动牙刷（ESP Toothbrush）项目资料包
21ic小能手打赏10.00元 3天前

资料：65535 阶高精度数字电位器项目
21ic小能手打赏10.00元 3天前

资料：ESP32 迷你墨水屏 MP3 播放器项目
21ic小能手打赏10.00元 3天前

资料：ESP Box 3 摇杆版（ESP Box 3 Joystick Edition）项目
21ic小能手打赏10.00元 3天前

资料：改进型 Exlink 多功能调试器（分离叠板）项目
21ic小能手打赏10.00元 3天前

资料：迷你音频稳压器（Mini Audio Regulator）项目
21ic小能手打赏10.00元 3天前

资料：Tuya T5 智能像素灯（Tuya T5 Pixels）项目
21ic小能手打赏10.00元 3天前

资料：基于 STM32 的多传感器物联网采集板项目总结
21ic小能手打赏10.00元 3天前

资料：ESP32 最小系统板（ESP32 Minimal System Board）项目
21ic小能手打赏10.00元 3天前

资料：5.8GHz FPV 图传模块项目
21ic小能手打赏10.00元 3天前

资料：智谱开源AutoGLM
21ic下载打赏310.00元 3天前

用户：jh0355

21ic下载打赏310.00元 3天前

用户：zhengdai
21ic下载打赏310.00元 3天前

用户：gsy幸运
21ic下载打赏230.00元 3天前

用户：小猫做电路
21ic下载打赏210.00元 3天前

用户：w178191520
21ic下载打赏60.00元 3天前

用户：jh03551
21ic下载打赏90.00元 3天前

用户：铁蛋锅
21ic下载打赏80.00元 3天前

用户：xzxbybd
21ic下载打赏60.00元 3天前

用户：kk1957135547
21ic下载打赏60.00元 3天前

用户：w1966891335
21ic下载打赏60.00元 3天前

用户：w993263495
21ic下载打赏60.00元 3天前

用户：sun2152
21ic下载打赏60.00元 3天前

用户：xuzhen1
21ic下载打赏60.00元 3天前

用户：liao6
21ic下载打赏70.00元 3天前

用户：liqiang9090
21ic下载打赏70.00元 3天前

用户：mulanhk
21ic下载打赏20.00元 3天前

用户：x15580286248
21ic下载打赏30.00元 3天前

用户：玉落彼岸
21ic下载打赏5.00元 3天前

用户：hnygpx
21ic下载打赏10.00元 3天前

用户：vikey_zhu

基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页