2018年5月
计算机仿真
第35卷第5期
文章编号:1006—9348(2018)05一0444—04
关于异构型物联网重复数据有效清除仿真
严圣华.王昌达
(江苏大学研究生学院,江苏镇江212016)
摘要:对异构型物联网的重复数据的清除。可以有效提高物联网运行稳定性。对异构物联网的重复数据进行有效清除,需要
对全部的特征向量进行量化处理,进而组建字符关系矩阵,完成重复数据的有效清除。传统方法利用批处理块级重复数据
清除方法计算出数据问的相似度,给m相似度判断阈值,但忽略了字符关系矩阵的建立,导致数据去重精度偏低。提出基于
多维数据聚类的重复数据清除方法。将全部感知数据属性中的连续值进行离散化,提取各个数据文本中的特征向量,对全
部的特征向量进行量化处理,融合傅立叶转换方法组建字符关系矩阵,给出每个字符和数据问的映射关系,计算每个数据的
傅立叶系数向量,得到数据相似度判断阈值,由此实现面向异构型物联网的重复数据清除。仿真证明,所提方法清除精度
高.有效地提升了异构型物联网环境下重复数据的质量。
关键词:异构型物联网;重复数据;有效清除
中图分类号:TP39l
文献标识码:B
Simulation of Effective Removal of
Data in
Duplicate
Things
Internet of
Heterogeneous
YAN
Sheng-hua,WANGChang-da
(Graduate School,Jiangsu University,Jiangsu Zhenjiang 212016,China)
aim of this research
to
for
of
data
ABSTRACT:The
is
overcome defect of traditional elimination method
duplicated
Internet of
as
elimination
on multi-dimensional data
new
cluster,a
heterogeneous
Things,such
poor
precision.Based
elimination method is
is carried out for continuous value in all
data attrib—
proposed.Firstly,discretization
perception
characteristic vector in earh
text
is
data
is carried out for all charac—
ute,and
extracted.Then,quantification
method,character relationship
process
matrix is built and
teristic vectors
with Fourier transform
relation
Integrated
mapping
between each character and data iS
threshold of data
vector
coemeient
duplicated
of each data iS calculated to obtain
iudgment
provided.Fourier
elimination of
data is
that the method
completed.Simulation proves
similarity.Thus,the
has
elimination
of the
data
duplicated
high
precision.It improves quality
internet of
effectively.
elimination
things;Duplicated data;Effective
KEYWORDS:Heterogeneous
1
引言
异构型物联网具有较为深远的发展意义.在各行业领域
复数据清除的实施陷入了瓶颈。在这种情况下.面向异构型
物联网的重复数据清除问题,成为了制约异构型物联网领域
中得到了广泛的应用。。。感知数据作为异构型物联网的
主要功能信息,为异构型物联网提供了信息来源.是异构型
物联网应用的基础,也是实现异构型物联网信息“全面感知”
应用目标的技术保证一“。但大量原始感知信息多表述为
显著的多源异构特性。并且原始数据中包含了大量的错误
和重复数据,而且数据的优劣直接影响上层应用分析结果的
可靠性以及应用目标的真正实现。此时,在异构型物联网环
境下,需要高效地进行重复数据清除,但是采用当前方法进
行重复数据清除时,无法给出数据的变量集合,致使其对重
发展的一个重要因素,引起了很多专家和学者的重视【7】。
在异构型物联网环境下,有关重复数据清除的研究有很
多,其相应的研究也出现一定的成果。文献[8]采用双指针
有向无环图给出数据的结构,利用批处理块级重复数据清除
方法计算出数据间的相似度,给出相似度判断阈值,由此实
现重复数据清除。该方法可以快速地提取不同类型数据的
特征属性,但是采用当前方法进行感知重复数据清除时.无
法给出数据的变量集合,存在重复数据清除误差大的问题。
文献[9]先确定数据的属性类型,基于变长分块(content de.
fined chunking,CDC)方法给出重复数据清除最大先验概率.
获取异构感知数据属性间的距离,以此为依据进行重复数据
收稿日期:2017—11—09修回日期:2017—11—20
清除。该方法可以给出数据间的相似度阈值,但是无法降低
—444一
万方数据
全部评论(0)