基于SVM的中文电子邮件作者性别识别技术研究

基于SVM的中文电子邮件作者性别识别技术研究

论文摘要

随着科技的飞速发展,网络成为人们交换、获取信息的新平台,其中电子邮件以其快捷、经济的特点,改变了传统的通信方式,成为人们重要的通信手段。电子邮件给人们带来便利的同时,也给人们提出了许多新问题,如垃圾邮件、病毒邮件、诈骗邮件、反动邮件等非法邮件泛滥的问题。这些非法邮件给社会造成的危害越来越大,如何有效遏制非法邮件的传播,惩治非法邮件的制作者已成为社会关注的热点。但要找到邮件的原始制作者,并向法庭提供有效证据,使之得到应有惩罚并不容易。因为邮件制作者可利用网络和电子邮件的特点,隐匿真实身份,通过匿名服务器发送邮件或伪造地址、更改姓名。因此,由邮件头部信息确定邮件作者的真实身份的工作很难实现。所以需要研究一种邮件作者身份的识别方法,确定邮件作者的真实身份,并为计算机取证提供依据,从而达到控制非法邮件传播的目的。如何确定邮件作者的真实身份呢?人的身份是由其个性身份特征组成的,如年龄、性别、职业、教育程度等等,所以确定邮件作者的真实身份,就要确定其个性身份特征,这样才能有效锁定邮件作者,并达到取证的目的。目前,对邮件作者身份的识别研究已有开展,并取得初步研究成果,但对作者的个性身份特征的识别还鲜有涉及。因性别是确定人身份的重要特征,且识别判定作者的性别后,可有效缩小识别范围,进一步提高邮件作者身份识别效率,为计算机取证提供技术支持,所以,本文选择识别中文电子邮件作者的性别这一研究热点,在国内外的相关研究基础上进行了研究和探索。本文首先对与本研究相关的电子邮件身份识别、作者性别识别等研究领域的国内外现状进行了论述,探讨了现有研究技术和方法。并从理论和技术的角度探讨了中文电子邮件作者性别识别的基本问题和任务模型。在详细分析中文邮件正文中性别语言差异的基础上,提出了可用于识别中文电子邮件作者性别的特征模式;在借鉴已有研究成果的基础上,对特征提取方法以及权值确定方法的进行了探讨;分析研究了利用支持向量机算法识别邮件作者性别的方法。为了验证所提出的模式和方法的正确性与可行性,本研究对有限数据集进行了实验研究。分别采用不同的特征、不同的特征组合以及综合特征等方法进行了实验。实验结果表明本研究提出的方法是可行的,但识别效果还远达不到计算机取证的要求,需进一步提高。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景和研究意义
  • 1.1.1 研究背景
  • 1.1.2 研究意义
  • 1.2 国内外研究现状
  • 1.2.1 写作风格和作者身份分析
  • 1.2.2 侦查语言学和作者个性特征研究
  • 1.2.3 性别语言差异与作者性别判定
  • 1.2.4 文本分类与电子邮件作者身份识别分类
  • 1.2.5 针对网上信息描述对象的性别识别研究
  • 1.3 问题综述
  • 1.4 本文的章节安排
  • 2 中文电子邮件作者性别识别方法和识别过程研究
  • 2.1 书面语言作者性别识别的一般方法
  • 2.2 中文电子邮件作者性别识别方法研究
  • 2.3 中文电子邮件作者性别识别的难点
  • 2.4 中文电子邮件作者性别识别过程
  • 3 基于邮件内容的作者性别特征分析和提取研究
  • 3.1 性别言语差异
  • 3.1.1 性别言语差异的形成原因
  • 3.1.2 性别语言差异的表现
  • 3.2 中文电子邮件中与作者性别相关的特征的分析研究
  • 3.2.1 中文电子邮件的一般特点
  • 3.2.2 与邮件作者性别相关的特征分析研究
  • 3.3 中文电子邮件作者性别特征的提取和表示方法研究
  • 3.3.1 中文电子邮件作者性别特征提取方法研究
  • 3.3.2 特征表示方法研究
  • 3.3.3 特征的选择
  • 4 基于支持向量机分类算法
  • 4.1 统计学习理论
  • 4.1.1 机器学习
  • 4.1.2 经验风险最小化原理
  • 4.1.3 VC维
  • 4.1.4 结构风险最小归纳原理
  • 4.2 支持向量机算法原理
  • 4.2.1 线性支持向量机
  • 4.2.2 非线性支持向量机
  • 4.2.3 支持向量机训练算法
  • 4.3 基于支持向量机的中文电子邮件作者性别识别方法研究
  • 4.3.1 邮件作者性别的识别分类方法
  • 4.3.2 k分交叉评价
  • 4.3.3 评估方法
  • 5 研究实验
  • 5.1 数据集
  • 5.2 实验方法
  • 5.3 实验结果
  • 6 结论
  • 附录A 汉语文本词性标注标记集
  • 在读期间发表的学术论文
  • 作者简历
  • 致谢
  • 附录
  • 相关论文文献

    • [1].基于SVM的永磁无刷直流电机无位置传感器控制[J]. 电子产品世界 2020(01)
    • [2].基于商空间的黄金价格SVM模型预测[J]. 黄金科学技术 2020(01)
    • [3].基于主成分降维的SVM回归模型在煤与瓦斯突出预测中的应用[J]. 工业计量 2020(01)
    • [4].基于SVM的在线医疗信息服务质量关键影响因素研究[J]. 情报科学 2020(03)
    • [5].基于SVM与fMRI技术对精神分裂症的分类研究[J]. 现代计算机 2020(01)
    • [6].基于SVM算法的微博评论数据情感分析[J]. 数字通信世界 2020(01)
    • [7].基于SVM的河道洪峰水位校正预报方法[J]. 水力发电 2020(04)
    • [8].基于SVM的煤与瓦斯突出预测模型及应用[J]. 陕西煤炭 2020(02)
    • [9].基于实时电价和加权灰色关联投影的SVM电力负荷预测[J]. 电网技术 2020(04)
    • [10].基于超声波扫描和SVM的综合管廊故障诊断模型[J]. 科技与创新 2020(07)
    • [11].基于SVM理论的航空发动机飞行数据可视化建模[J]. 科技创新与应用 2020(12)
    • [12].基于SVM的固化土无侧限抗压强度模型[J]. 宁波大学学报(理工版) 2020(04)
    • [13].基于遗传算法和SVM的肝豆状核变性震颤评估方法研究[J]. 西安文理学院学报(自然科学版) 2020(03)
    • [14].基于SVM的高速公路预防性养护效果评价模型及应用[J]. 工程建设 2020(05)
    • [15].基于因子分析和SVM的网络舆情危机预警研究[J]. 重庆工商大学学报(自然科学版) 2020(05)
    • [16].基于SVM的物联网大数据有效信息过滤挖掘[J]. 河南科技 2020(26)
    • [17].基于改进SVM算法的思政教育动态预警系统研究[J]. 微型电脑应用 2020(09)
    • [18].基于SVM技术调剖(驱)潜力预测[J]. 承德石油高等专科学校学报 2019(05)
    • [19].基于海量数据的不平衡SVM增量学习的钓鱼网站检测方法[J]. 电信工程技术与标准化 2016(12)
    • [20].结合主方向和SVM的人脸表情识别[J]. 廊坊师范学院学报(自然科学版) 2016(04)
    • [21].SVM算法支持下的耕地面积退化遥感监测——以昆明市呈贡区为例[J]. 安徽农业科学 2017(01)
    • [22].矿井突水水源的SVM识别方法[J]. 辽宁工程技术大学学报(自然科学版) 2017(01)
    • [23].基于SVM算法的移动智能终端安全等级分级模型[J]. 通信技术 2017(04)
    • [24].图像视觉显著性和改进型SVM在图像分割中的研究[J]. 通讯世界 2017(08)
    • [25].一种基于决策树的SVM算法[J]. 太原学院学报(自然科学版) 2017(01)
    • [26].基于多级SVM分类的语音情感识别算法[J]. 计算机应用研究 2017(06)
    • [27].基于模糊信息粒与SVM的道路交通状态波动分析[J]. 重庆交通大学学报(自然科学版) 2017(07)
    • [28].基于SVM的上证指数预测研究[J]. 软件导刊 2017(08)
    • [29].基于集成SVM的肺部肿瘤PET/CT三模态计算机辅助诊断方法[J]. 生物医学工程研究 2017(03)
    • [30].一种基于SVM的声源定位算法[J]. 计算机技术与发展 2017(09)

    标签:;  ;  ;  ;  ;  

    基于SVM的中文电子邮件作者性别识别技术研究
    下载Doc文档

    猜你喜欢