推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python英文分词的邮件作者识别

更新时间:2019-12-24 09:51:47 大小:3M 上传用户:songhuahua查看TA发布的资源 标签:python 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

电子邮件的流行带来身份伪冒、诈骗邮件等问题日益凸显,本文使用Python作为编程语言,基于TF-IDF算法和余弦相似度对邮件作者进行识别,解决伪造邮件等问题。


部分文件列表

文件名 大小
基于Python英文分词的邮件作者识别.pdf 3M

部分页面预览

(完整内容请下载后查看)
技术交流  
防止配电箱受到人为的破坏或者发生安全事故。  
2 机电安装工程施工存在问题  
2.1 机电安装工程中存在的施工问题  
人员的业务水平也有很大提高工人员与管理人员直接参与了安装  
过程们的能力和水平是安装过程能顺利进行的保障此施工人  
员和管理人员的组织工作便显得更为重要下优秀的人员  
不合格的人员对施工人员与管理人员的业务水平与素养进行  
评估的同要考虑他们的工作经验。  
由于不断出现新的工艺和材点安装工程的施工技术往往  
跟不者更新的速度外因为机电安装的施工人员学习的能力不  
不能及时更新自己的安装方法容易造成机电安装的细节处理不当,  
造成质量问题一些高档的灯具的安装往往不是很  
3.2 施工阶段  
在进行机电设备施工之前对施工图纸进行审查确保没有  
问题之后再开始施工个施工过程都要严格遵循图纸与设计方案,  
图纸设计的机电设计质量要满足国家质检标准止出现安全问题,  
在图纸出现错误的时候及时汇报给管理部门使想出解决办法,  
对设计方案进行修正工的质量管理人员若要确保机电施工过程  
能顺利进要定时对施工设备进行检验工监理单位要对施工  
过程中的关键部分进行严格监时完善管理制度施工各部分  
进行严格质量把关证机电安装过程顺利进分利用企业内外  
的监督管理制度。  
2.2 施工人员的作业过程不规范  
施工过程不规范主要有几个方面的原因个是工程企业招聘  
的安装人员能力不够强业素质一般往会在机电零件的生产制  
造和机电设备的安装过程中出现失误致作业的不规范外机电  
工程往往有很多电路和零件多如装备顺序不正确件接触不  
都会影响作业的质量。  
2.3 施工过程对周围环境有一定影响  
一些机电安装工程企业对建筑进行施工为选址  
或者其他的一些因素对周围的环境产生影响如设备在工作时  
会产生噪作完成后产生废以如何在保证机电设备正常工  
作的条件影响或少影响周围的环境尤为重要。  
4 结语  
机电安装技术不仅对设备的运行状态产生影响时也影响整  
个建筑工程的质量此必须要做好机电工程施工工作于机电安  
装技术方面可以通过新技术新设备来提高硬件水平一方面同  
时可以通过提高施工人员和管理人员的专业素养来提高安装技术,  
同时整个安装过程要严格按照图纸来进能改变安装顺序  
也应该通过监管机制来控制施工质量。  
2.4 机电设备的兼容性不强  
机电设备的设计深度不致市场上有一些可用性较差的机电  
工程设别是小企业生产的机电工程设备的型号和规格缺乏统  
一的使用标准和科学参数电设备的调试不合格致机电设备的  
安装程序比较混乱电产品的定位不够精确致生产出来的机电  
工程设备寿命以及可用性方面存在问题。  
参考文献  
[1] 利广. 工程机电安装施工阶段的技术要点研究 [J/OL]. 筑知  
3 机电安装工程施工质量控制  
3.1 准备阶段  
 ,2017(07) :68.  
[2] 陈裕森 . 建筑机电安装施工技术要点 [J]. 中华建设 ,2016(02):146-147.  
[3] 韦华 . 探讨机电安装施工技术在建筑中的实际应用 [J].华民居 ( 下旬  
 ),2013(03):165-166.  
在正式安装施工之个施工人员都要对整工程的图纸和  
方案中的任何内容了然于胸了解工程中具体的安装步骤意事项、  
人事安排以及细节处理此企业的管理人员应该做到监督作  
促每员熟记施工方案保整个施工过程可以顺利的进  
一来既保证了工程的质量提高了进度与效率时对施工人员与管理  
作者简介  
朱益良 , 身份证号码 330724197410261455。  
基于 Python 英文分词的邮件作者识别  
陈梦圆  田君艺  任宇童  重庆邮电大学计算机科学与技术学院  
摘要子邮件的流行带来身份伪冒骗邮件等问题日益凸显文使用 Python 为编程语 TF-IDF 算法和余弦相似度对邮件作者进  
行识决伪造邮件等问题。  
关键词本特征提取 余弦相似度 作者识别 Python  
1. 概述  
3. 部分代码  
# -*- coding:utf-8 -*-  
在日常口语  达和 文本描 述中   形成  人特    
语言风格件中的文本常混合着口语内容和正式书面  
风格尤为明显文就基于语言风格特征对邮件内容提取有效  
关键字对邮件特征和样本之间的余弦距离来识别邮件作者。  
import os  
def eachFile(filepath):  
    emailPath = []  
    pathDir = os.listdir(filepath)  
    for allDir in pathDir:  
2. 理论准备  
2.1 TF-IDF  
        child = os.path.join('%s%s' % (filepath, allDir))  
        emailPath.append(child.decode('gbk'))  
    return emailPath  
TF-IDFterm  frequency–inverse  document  frequency  
是一种用于资讯检索与资讯探勘的常用加权技术TF-IDF 是一种统  
计方法以评估一字词对于一个文件集或一个语料库中的其中一份  
文件的重要程度词的重要性随着它在文件中出现的次数成正比  
同时会随着它在语料库中出现的频率成反比下降TF-IDF  
加权的各种形式常被搜寻引擎应用为文件与用户查询之间相关程  
度的度量或评级。  
def readFile(filename):  
    if not os.path.isfile(filename):  
        raise TypeError(filename + " does not exist")  
    all_the_text = open(filename).read()  
    open(filename).close()  
2.2 余弦相似度  
    return all_the_text  
余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个  
个体间差异的大小比距离度量弦相似度更加注重两个向量在  
方向上的差异非距离或长度上。  
if __name__ == '__main__':  
    filePath = "E:\\NotBassRes\\"  
    emailPath = eachFile(filePath)  
    email = []  
设计流程如图 1 所示。  
    for path in emailPath:  
        text = readFile(path)  
        text = text.replace('\n', ' ')  
        email.append(text)  
     
图 1 设计流程  
数码世界 P.244  
技术交流  
    for i in range(50):  
        while True:  
骤来处理最终使TF-IDF法得到测试邮件和语料库的特征矩阵,  
计算其余弦相似度。  
                        fname  =  'E:\\NotBassRemove\\  
NotBassRemove.txt'  
采用 600 封重复以上步骤算识别作者过程各类指标值  
所得结果如表 1 所示。  
            if os.path.exists(fname):  
                # print "Error:" + fname + " already  
exists"  
表 1 计算结果  
评价指标  
precision  
0.8913  
recall  
F1 rating  
0.8604  
概率(%)  
0.8316  
                break  
precision 反映系统拒绝无关信息的能recall 反映检测  
系统相关信息的能力F1 rating 反映综合精度。  
如你所见模型能正确识别作者的概率是 89.13%就是说,  
 100 封电子邮件中 89.13 个字母可以被正确识别确率非  
常高。  
            else:  
                break  
        fp = open(fname, 'a')  
        fp.write(str(email[i]) + '\n')  
        fp.close()  
4. 结果分析  
参考文献  
首先选择一个由 Bass 写的安然邮件信息作为语料训练集  
邮件的非原件部保留原文内容后使用 nltk 进行单词提取,  
给出训练集合中的每个特征词的 TFC 的重量文本内容转换成计  
                      ,重       
[1] http://blog.csdn.net/baimafujinji/article/details/51476117  
[2] 刘明勇 . 基于写作风格学的作者识别技术研究 [D]. 浙江大学 ,2013.  
[3] http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html  
构建基于 BIM 和实时监控技术的基建工程监控平台  
明钱良  郑亮  杨柳  牛琦  程国庆  网湖北省电力有限公司孝感供电公司经研所  
摘要建设系建设进建设管理的集约化平化业化一管理流程一技术规范一建设标准网孝感公司构  
建了基于 BIM 和实时监控技术的基建工程监控平平台以建设职能管理程项目管理以及参建队伍管理为核心管理内容立以工程项目现场  
为数据第一发源地的工作理念 BIM据挖掘程视频及数据高级展示等技术工程项目建设进度术和队伍等专业  
管理内容进行集中监控一指挥平台以孝感长湖 220 千伏输变电工程为试点用范围涵盖 35 千伏及 220 千伏输变电工程。  
1. 工作描述  
用推广范围  
为了深入落三集五大根行网孝感公司建设  
 BIM 和实时监控技术的基建工程监控平台现从 35 千伏到 220  
千伏的输变电工程进行统一管理内容一数据平台管理。  
第一项目同时建设效的数据汇集炼及分析将是提高  
管理效率的重要手段目管理团队间的专业水平存在不同程  
度差异要不断提高公司建设管理的整体水平度重点工  
程开工建设先进的技术越的管理打国际一流精品工  
第四对接融入区域发设电网优质工程强对项目建设过  
程的实中管控现资源利用最大化电网工程建设管理发  
展的必经之路。  
目前经应用于孝感长湖 220 千伏输变电工程悟汪洋 220  
千伏输变电工程下来将逐步在 110 千伏及 35 千伏输变电工程中  
进行推广应用。  
3. 特色亮点  
3 . 1                        
建立业务全覆盖的一体化监控平分散在项目管理全管  
量管理术管理经管理和队伍管理六大管理专业的数据  
信息连接在一起过网络来实现各专业管理信息的共享递和管  
理制度的统一执现对所有在建工程信息进行集中管理项目  
管理人员进行项目问题磋商目建设过程管理目过程资料收集  
     便           
2. 主要做法  
2 . 1         线          
3.2新管理方式引入先进的工程管理技术实现多维度、  
立体化对目建设情况展现  
大建设施方案目首先确定了工程项目管理和职能  
管理两条主线目组制定调研提纲别对业主项目经理  
部各专业管理负责人设部主管领导等进行访谈绕项目主线发  
现各类管理者最关注的问题结影响项目进度量等的主要因素。  
平台引BIM3G 远程视频图形化展示知识库等先进管理技术,  
建设了 3D 施工建设过程模拟程现场远程视频据高级分析展  
示以及标准规范库等功能模块现了对每工程项目的建设情况立  
体化了解体验高了工作决策的准确性了建设管理集约化、  
精益化。  
2 . 2      ”体  ,搭         
按照大建设管理体系要求公司电网建设管理工作分为专业  
管理和项目建设过程管理业主项目部为业务发起单位工程建  
设过程实现全周期管理。  
3.3 注重获取工程第一现场的数据信息少管理环  
提高工作效率  
2.3 目管理关键节点心数据建平台技术架  
构和数据架构  
平台的数据获取以业主项目部收集汇报信息为主要来源  
信息传递过程造成的信息加工衰减有效地促进级管理人员及  
准确地共享工程动态建设协调程磋商以及指挥决策提供高效  
的数据支撑平理过程中可能造成的资源浪了工  
                  
经过对各层级专业的调理专业管理流程及数据实体,  
形成本平两级应用矩阵管理工程项目管理模式。  
2.4 调研 BIM 应用现状于典型电网工程进行三维建模  
BIM建筑信息模型以三维数字技术为基础成了建筑工  
程项目各种相关信息的工程数据模型它具有可视化调性拟性,  
优化性和可出图性五大特点。  
4. 具体案例  
以孝感长湖 220 千伏输变电工程应用为例出了以工程项目  
现场为数据第一发源地的工作理念 BIM据挖掘程视频  
及数据高级展示等信息技术工程项目建设进度  
技术和队伍等专业管理内容进行集中监控一指挥现了对项目  
信息的全面掌控。  
2.5 采用安全加密技术实现对工程现场实时远程视频监  
系统接入国网孝感供电公工程指挥系统 3G 无线通  
信网络专用通道和高级加密技术现了在电力办公网远程查看工程  
现场实时视频。  
5. 实践效果  
(一缩信息传递层级三集五大出现的项目  
少现象提供合理的解决方法“大建设系的实施够缩短工程  
现场数据信息向上传递的路径长度了信息沟通环节产生所需人  
2.6 通过试点应用对业务内容进行优化步扩大平台应  
Digital Space P.245  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载