基于词和基本短语模式的特征提取方法

基于词和基本短语模式的特征提取方法

论文摘要

Internet的发展带动了信息的迅速增加,如何从海量的信息中快速有效地找到有用的信息,已经成为亟待解决的问题。文本信息的自动分析可以有效地解决这一问题,而文本信息自动分析中的一个主要技术就是文本分类。文本分类技术可以使用户按照自己的要求搜索到有用的信息,不仅大大提高了文本信息的利用率,还具有广泛的研究价值和商业价值。文本分类主要包括四个部分:文本预处理、特征提取、特征权重计算和分类器分类。其中特征提取是文本分类的关键,而消除语义歧义和降低向量空间维数是特征提取的难点。传统的文本分类方法都以词作为文本的特征进行提取,而单个词语所能涵盖的文本特征含义十分有限。本文改进了特征项单一性的缺点,提出了一种基于词和基本短语模式的特征提取方法。本文采用了对分词后的词语进行词性标注,并且使用同义词词林处理同义词和多义词的方法。即有效地消除了语义歧义,还降低了空间向量维数。本文用KNN分类器和SVM分类器分别进行了实验。实验结果表明,分类的准确率和召回率都得到了提高。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景及意义
  • 1.2 研究现状
  • 1.2.1 国内外研究现状
  • 1.2.2 当前研究重点问题
  • 1.3 本文的研究工作及组织
  • 第2章 文本分类技术概况
  • 2.1 文本分类的基本概念
  • 2.2 文本分类的一般过程
  • 2.3 文本预处理
  • 2.3.1 中文分词
  • 2.3.2 中文词性标注
  • 2.4 文本表示
  • 2.4.1 特征项的选择
  • 2.4.2 布尔模型
  • 2.4.3 向量空间模型
  • 2.5 特征选取
  • 2.6 权重计算
  • 2.7 文本分类方法
  • 2.7.1 k-近邻方法
  • 2.7.2 支持向量机方法
  • 2.8 本章小结
  • 第3章 基本短语的识别
  • 3.1 特征项类型的比较
  • 3.2 基本短语的界定和语义分析
  • 3.2.1 基本名词短语的界定
  • 3.2.2 基本动词短语的界定
  • 3.2.3 基本短语的语义分析
  • 3.3 基本短语的分析流程
  • 3.4 基本短语识别的实现
  • 3.5 实验结果与分析
  • 3.6 本章小结
  • 第4章 基于词和基本短语模式的中文文本分类方法
  • 4.1 基于词和基本短语模式的中文文本分类方法的实现
  • 4.2 文本预处理
  • 4.3 停用词处理和语义的消歧
  • 4.3.1 停用词的处理
  • 4.3.2 语义的消歧
  • 4.4 特征选取
  • 4.5 权重计算方法的改进
  • 4.6 实验评估函数
  • 4.7 实验结果及分析
  • 4.7.1 实验数据
  • 4.7.2 实验结果及分析
  • 4.8 本章小结
  • 第5章 结论与展望
  • 5.1 结论
  • 5.2 展望
  • 参考文献
  • 攻读硕士期间发表论文情况
  • 致谢
  • 相关论文文献

    • [1].沙化土地地理信息多维结构特征提取仿真[J]. 计算机仿真 2019(11)
    • [2].基于卷积神经网络特征提取的轻量级包装袋分类模型[J]. 塑料科技 2020(08)
    • [3].图片特征提取[J]. 中小企业管理与科技(中旬刊) 2017(03)
    • [4].六种常用的网络流量特征提取工具[J]. 计算机与网络 2017(06)
    • [5].浅议车牌识别中字符的特征提取方法[J]. 科技传播 2009(05)
    • [6].基于分级特征提取的货物分拣机器人目标自动识别系统设计[J]. 自动化与仪器仪表 2020(05)
    • [7].多模态生物特征提取及相关性评价综述[J]. 中国图象图形学报 2020(08)
    • [8].多传感器数据融合在船舶特征提取中的应用[J]. 舰船科学技术 2016(18)
    • [9].溯洄从之,一波三折——关于特征提取的教学实例与策略[J]. 中国信息技术教育 2020(07)
    • [10].基于局部加权的非线性特征提取方法[J]. 华中科技大学学报(自然科学版) 2013(S1)
    • [11].基于多特征提取的识别算法数学建模优化研究[J]. 哈尔滨师范大学自然科学学报 2013(04)
    • [12].一种新的基于瓶颈深度信念网络的特征提取方法及其在语种识别中的应用[J]. 计算机科学 2014(03)
    • [13].一种基于特征提取的简答题阅卷算法[J]. 湖南工程学院学报(自然科学版) 2010(01)
    • [14].基于改进符号序列熵的岸桥齿轮箱退化特征提取研究[J]. 机电工程 2020(02)
    • [15].基于自编码的特征提取方法在生物医学领域中的应用进展[J]. 中国卫生统计 2020(02)
    • [16].基于时变三维坐标重构的空间锥体目标微动特征提取方法[J]. 空军工程大学学报(自然科学版) 2020(02)
    • [17].基于特征提取和随机森林的风机故障诊断[J]. 科学技术创新 2020(26)
    • [18].互联网+嵌入式移动4G教学终端——农业病虫害特征提取系统的研究[J]. 电子技术与软件工程 2019(21)
    • [19].恶意流量特征提取综述[J]. 信息网络安全 2018(09)
    • [20].基于特征提取的图像相似度研究[J]. 信息系统工程 2016(01)
    • [21].基于敏感分量融合的液压泵退化特征提取方法[J]. 仪器仪表学报 2016(06)
    • [22].几种藏文字特征提取方法比较研究[J]. 信息与电脑(理论版) 2014(08)
    • [23].基于层次特征提取的文本分类研究[J]. 计算机应用与软件 2020(02)
    • [24].基于关联规则特征提取的心理大数据评估方法[J]. 周口师范学院学报 2020(02)
    • [25].基于三角函数迭代的视频数据特征提取[J]. 图学学报 2020(04)
    • [26].光纤安防监测信号的特征提取与识别研究综述[J]. 计算机工程与应用 2019(03)
    • [27].基于特征提取的绘本阅读机器人设计方案[J]. 电子制作 2019(15)
    • [28].基于特征提取及聚类算法的增量图片筛选系统[J]. 电视技术 2017(Z3)
    • [29].一种新颖的通信辐射源个体细微特征提取方法[J]. 电波科学学报 2016(01)
    • [30].一种基于链码的线特征提取方法[J]. 测绘科学 2014(09)

    标签:;  ;  ;  ;  

    基于词和基本短语模式的特征提取方法
    下载Doc文档

    猜你喜欢