推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

Python程序设计题的查重研究

更新时间:2020-02-06 16:02:54 大小:6M 上传用户:gsy幸运查看TA发布的资源 标签:python 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

程序设计题的查重实质上就是对程序代码之间的相似度进行检测,通过程序代码之间的相似度得出程序代码之间的重复率。本文主要对Python程序设计题进行查重研究,同时设计实现出适用于Python程序设计题的查重系统,使得该系统可用于Python程序语言的教学中。虽然本系统的研究主体是Python语言,但其设计原理和方法具有普遍性,因此对其它程序设计语言同样适用。本文的主要研究工作如下:

  1)本文对外国内外已有的抄袭检测系统的实现方法和原理进行了研究,分析了各个系统之间的优点和缺点。确立本系统的实现采用属性计数技术和结构度量技术相结合的方法。

  2)本文对向量空间模型原理和实现方法进行了研究,借鉴向量空间模型在文本分类问题中的运用。确立本系统采用向量空间模型把程序代码转换成由特征项组合而成的特征向量,由特征向量之间的相似度得到程序代码之间的相似度。

  3)本文对正则匹配技术、抽象语法树处理技术以及常见的几种特征提取算法的原理和实现方法进行了研究。设计实现了基于程序代码和基于抽象语法树这两种特征提取方法。

  4)本文对常用的几种特征加权方法的原理和实现方法进行了研究。设计实现了一种改进的逆文档频率加权算法,这种加权算法能很好地适用于程序代码的特征向量加权。

  5)本文对常用的几种向量相似度计算方法的原理和实现方法进行了研究。并设计实现了适用于本系统的一种全新的向量相似度计算方法。

  6)本文从基于程序代码和基于抽象语法树这两种特征提取方法的角度,分别用余弦夹角、相关系数、差异程度这三种相似度计算方法对三种不同程度的抄袭进行了检测,并将最终的检测结果与MOSS系统的检测结果进行比对。同时,为了验证查重系统的可行性,本文还选取了实际教学中的学生代码进行了测试,并与人工比对的结果进行了比较。

  通过对最终测试结果进行对比分析,本系统能较好的识别不同程度的抄袭,并给出相应的判断。本文通过对系统的测试结果与MOSS系统的测试结果进行比对分析,得出本系统从基于抽象语法树的角度进行特征提取,采用差异程度算法计算特征向量的相似度,最终得到的查重结果最优。

部分文件列表

文件名 大小
Python程序设计题的查重研究.pdf 6M

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载