基于条件随机场的中文分词技术的研究与实现

基于条件随机场的中文分词技术的研究与实现

论文摘要

互联网中日益庞大的海量信息给信息处理带来了极大的挑战,尤其是在中文信息处理领域,其中最为重要的一个就是对中文分词技术的要求。中文分词的主要目的就是将中文语句解析为具有正确含义的词语的组合,从而使得计算机可以理解句子的意义,信息索引、自动摘要、文本分类、自动聚类、文本纠错、手写输入、智能应答等各个领域中对信息处理的第一步都是中文分词,所以加强对中文分词技术的研究具有极为重要的意义。本文运用条件随机场统计模型将中文分词中的词语切分问题成功转换为汉字的组合构词问题,主要是引入了汉字词位的概念,通过对汉字词位的标注使其能够依照词位组合的规则进行词语合并,整个过程通过机器学习训练的方法加以实现,不仅提高了分词的准确度,还能使分词工作摆脱对词典的依赖。本文运用JAVA语言实现了基于条件随机场的分词系统,首先对真实语料库特征信息进行统计,建立了可扩展可维护的特征信息库,然后运用viterbi算法对词位序列求最优解,在实现viterbi算法的过程中引入了规则限制以去掉无效的组合,从而降低了viterbi算法的计算量。在实验阶段,运用真实语料库进行训练和测试,并编写了高效的性能评测算法对系统的分词结果进行分析。本文的研究方法可以通过汉字的词位组合规律来识别未登录词,从而可以在未登录词的识别问题上做更进一步的研究。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 课题背景
  • 1.2 中文分词技术研究现状
  • 1.3 论文研究目的
  • 1.4 论文结构安排
  • 2 中文分词相关技术介绍
  • 2.1 中文分词技术
  • 2.2 条件随机场
  • 2.3 主要技术难点
  • 2.4 分词效果评测技术
  • 2.5 本章小结
  • 3 基于条件随机场的中文分词系统设计方案
  • 3.1 分词系统设计思路
  • 3.2 分词系统功能需求分析
  • 3.3 分词系统总体结构
  • 3.4 分词系统设计方案
  • 3.5 本章小结
  • 4 基于条件随机场的中文分词系统详细实现
  • 4.1 语料预处理模块实现
  • 4.2 机器学习模块实现
  • 4.3 系统输入模块实现
  • 4.4 系统识别模块实现
  • 4.5 内容转换输出模块实现
  • 4.6 性能评测模块实现
  • 4.7 本章小结
  • 5 实验结果及分析
  • 5.1 系统测试环境
  • 5.2 实验结果
  • 5.3 结果分析
  • 5.4 本章小结
  • 6 总结与展望
  • 6.1 论文工作总结
  • 6.2 后续工作展望
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].基于神经网络的中文分词技术研究[J]. 科学技术创新 2019(32)
    • [2].中文分词技术研究[J]. 信息与电脑(理论版) 2020(10)
    • [3].中文分词技术在搜索引擎中的探讨[J]. 科技信息 2009(35)
    • [4].自然语言检索中的中文分词技术研究进展及应用[J]. 情报科学 2008(05)
    • [5].百度中文分词技术浅析[J]. 河南图书馆学刊 2008(04)
    • [6].计算机中文分词技术及其在数字化侦查中的应用研究[J]. 福建警察学院学报 2008(04)
    • [7].基于回溯法的中文分词技术[J]. 电子技术与软件工程 2019(21)
    • [8].面向未登录领域词切分的中文分词技术研究[J]. 信息系统工程 2013(11)
    • [9].中文分词技术研究综述[J]. 数据分析与知识发现 2020(Z1)
    • [10].中文分词技术在社会化媒体分析中的应用[J]. 中国教育技术装备 2014(16)
    • [11].计算机中文分词技术的应用[J]. 呼伦贝尔学院学报 2010(03)
    • [12].百度和谷歌的中文分词技术浅析[J]. 中国索引 2011(02)
    • [13].应用中文分词技术的网络推广管理系统的设计与实现[J]. 电子商务 2019(09)
    • [14].基于双向匹配法和特征选择算法的中文分词技术研究[J]. 昆明理工大学学报(自然科学版) 2011(01)
    • [15].中文分词技术在搜索引擎中的应用研究[J]. 计算机与网络 2010(01)
    • [16].中文分词技术的研究及在Nutch中的实现[J]. 科技信息 2011(19)
    • [17].基于云计算的中文分词研究[J]. 河北科技大学学报 2012(03)
    • [18].专家遴选系统设计与实现[J]. 计算机时代 2019(07)
    • [19].中文分词技术的研究现状与困难[J]. 信息技术 2009(07)
    • [20].基于分组hash与变长匹配的中文分词技术[J]. 计算机时代 2019(04)
    • [21].基于MMSEG算法的中文分词技术的研究与设计[J]. 信息技术 2016(06)
    • [22].中文分词技术综述[J]. 安阳师范学院学报 2010(02)
    • [23].中文分词技术及其实现[J]. 软件导刊 2011(01)
    • [24].考试系统基于中文分词技术的主观题评分尝试[J]. 科技信息 2009(28)
    • [25].中文分词技术的研究[J]. 电脑开发与应用 2010(03)
    • [26].NLP中文分词技术在桥梁报告数据处理中的应用[J]. 交通世界 2020(17)
    • [27].基于Lucene的中文分词技术改进[J]. 咸阳师范学院学报 2012(02)
    • [28].浅谈中文分词技术[J]. 科技资讯 2011(32)
    • [29].面向军事领域的中文分词技术研究[J]. 计算机与现代化 2018(11)
    • [30].基于专业词典的带词长的中文分词技术的研究[J]. 科技信息 2012(34)

    标签:;  ;  ;  

    基于条件随机场的中文分词技术的研究与实现
    下载Doc文档

    猜你喜欢