基于双字哈希的PAT树词典机制的研究

基于双字哈希的PAT树词典机制的研究

论文摘要

中文自动分词是中文信息领域中的一项重要的基础性工作,同时中文信息处理技术也是重要的计算机技术,它已广泛地渗透到如数据库技术、计算机网络、软件工程等计算机应用领域中。由于中文文本词间无间隙且按句连写,因此在中文文本处理中,词的正确切分问题是首要问题。高效准确的分词系统在是信息处理的必要条件。本文论述了基于双字哈希的PAT树词典机制及基于该机制的分词词典的建立问题。本文对三种典型的分词词典机制、基于双字哈希的词典机制、基于PAT树的词典机制及四字哈希词典机制进行了探讨与研究,并针对这些机制存在的问题提出了改进措施。双字哈希的词典机制针对中文文本中双字词占较大比例的特点,利用哈希查找的高效性,对词条的前两字采用哈希散列的方法。通过实验证明,这种词典机制在双字词的处理上效率较高,但在多字词的处理上有待提高。基于PAT树的词典机制在时间效率上有优越性,但却需要更多的存储空间。针对这样的情况,本文提出了基于双字哈希的PAT树词典机制,并对基于该机制词典的查询及更新进行了详细的论述。基于双字哈希的PAT树词典机制不仅吸取了双字哈希处理双字词的高效性,同时也将多字词切分的时间效率提高。由于对前两字采用哈希散列,PAT树的深度也得到了控制。本文对基于双字哈希的PAT树词典的生成过程也进行了描述,并且在3GWS分词系统中加载了该机制的词典,对其时间及空间效率进行了测试。实验证明,基于双字哈希的PAT树词典机制,在时间效率上较逐字二分词典机制及双字哈希机制均有明显提高,在空间效率上较PAT树机制有了很大改善,并且在词典的更新方面效率也较高。本文分析了常用的机械分词方法和统计分词方法基础上,设计并实现了一个基于机械与统计相结合的分词系统。为使得机械分词方法和统计分词方法能有机结合,优势互补,最大发挥各自性能,本文在如下几方面作了深入研究:在机械分词阶段,将最大匹配长度的赋值方式由静态分配改进为动态分配,以减少不必要的匹配操作;将词频信息作为切分评估的另一标准,以弥补“长词优先”标准的不足。在统计分词阶段,为了提高统计操作的效率,对分词单位的概念进行了泛化,并把词频统计操作融合于机械分词操作,同时还采用了Hash表来存储词频统计的结果,从而提高机械分词速度。最后,本文分析了本词典机制的不足和需要进一步做的工作。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 中文自动分词常用的方法
  • 1.1.1 基于字符串匹配的方法
  • 1.1.2 基于统计的方法
  • 1.1.3 基于理解的方法
  • 1.1.4 基于语义的方法
  • 1.2 中文自动分词研究的现状及问题
  • 1.3 论文主要研究内容
  • 1.4 论文组织
  • 第2章 常用的分词词典机制
  • 2.1 分词词典的查询方式
  • 2.2 三种典型的分词词典机制
  • 2.2.1 基于整词二分的分词词典机制
  • 2.2.2 基于TRIE索引树的分词词典机制
  • 2.2.3 基于逐字二分的分词词典机制
  • 2.3 基于PAT树的词典机制
  • 2.3.1 基于PAT树的词典机制
  • 2.3.2 基于改进的PAT树词典机制
  • 2.4 基于双字哈希索引的词典机制
  • 2.5 四字哈希结构的词典机制
  • 2.6 本章小节
  • 第3章 改进的双字哈希词典机制
  • 3.1 哈希函数及汉字编码问题
  • 3.2 基于双字哈希的PAT树词典结构
  • 3.3 词典结构中的参数及结构
  • 3.3.1 首字哈希表
  • 3.3.2 词次字哈希表
  • 3.3.3 词余字PAT树
  • 3.4 次字哈希表中冲突的解决
  • 3.5 词条的查询
  • 3.5.1 确定词条的查询
  • 3.5.2 前辍词条的查询
  • 3.5.3 最长词条的查询
  • 3.6 词典的更新
  • 3.6.1 词条的添加
  • 3.6.2 词条的删除
  • 3.7 初始词典的建立
  • 3.7.1 初始词典的生成
  • 3.7.2 成词原则
  • 3.8 本章小节
  • 第4章 实验及分词词典的性能测试
  • 4.1 词典测试
  • 4.1.1 词典的查询的算法及规则
  • 4.1.2 分词的流程设计
  • 4.1.3 词典的测试步骤
  • 4.2 实验设计与结果分析
  • 4.2.1 实验设计
  • 4.2.2 实验结果分析
  • 4.3 与其他词典机制的比较
  • 4.4 本章小节
  • 第五章 机械与统计相结合的分词系统的设计与实现
  • 5.1 系统设计的基本思想
  • 5.1.1 机械分词方法的设计思想
  • 5.1.2 统计分词方法的设计思想
  • 5.1.3 机械与统计相结合的设计思想
  • 5.2 机械与统计相结合的分词系统的设计与实现
  • 5.2.1 各模块数据流图
  • 5.2.2 各模块设计及实现
  • 5.3 功能界面的设计
  • 5.3.1 系统实现的功能
  • 5.3.2 分词系统界面设计
  • 5.4 本章小节
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文及取得的科研成果
  • 致谢
  • 个人简历
  • 相关论文文献

    • [1].美国家庭教育的创建、实施及启示——以PAT项目为例[J]. 教育观察 2019(33)
    • [2].小学英语阅读素养“PAT”评价策略[J]. 教育观察 2020(11)
    • [3].PAT蛋白抑制饥饿诱导的脂滴快速融合[J]. 现代生物医学进展 2020(04)
    • [4].变结构控制在空间光通信PAT系统中的应用[J]. 电光与控制 2008(08)
    • [5].扰动观测器在空间光通信PAT系统中的应用[J]. 红外与激光工程 2016(01)
    • [6].图书馆微信平台用户心流体验及其对阅读行为的影响——以PAT模型为视角[J]. 图书情报导刊 2020(07)
    • [7].妊娠期血小板减少症72例临床分析[J]. 航空航天医药 2009(09)
    • [8].偏远山区民宿客栈从业人员PAT培训模式研究——以牛背山民宿客栈为例[J]. 四川劳动保障 2016(S2)
    • [9].NAT技术的具体应用与实践[J]. 石家庄理工职业学院学术研究 2013(04)
    • [10].浅谈PAT在GMP管理中的应用[J]. 机电信息 2010(05)
    • [11].浅析PAT在实施QbD中的作用[J]. 机电信息 2011(32)
    • [12].PAT系列喷气织机引纬工艺设定及故障分析[J]. 棉纺织技术 2011(09)
    • [13].儿科三角评估(PAT)在儿科急诊分诊中的应用[J]. 当代护士(下旬刊) 2017(10)
    • [14].自抗扰控制器在空间光通信PAT中的应用[J]. 光通信技术 2017(10)
    • [15].基于PAT的WSNs安全分簇协议建模与验证[J]. 软件导刊 2017(09)
    • [16].美国“父母即教师”项目(PAT)的发展及效果评估[J]. 比较教育研究 2012(03)
    • [17].冻干过程PAT及方案设计[J]. 机电信息 2009(11)
    • [18].最有趣的奖励:派特时间(PAT)[J]. 班主任之友(中学版) 2018(Z1)
    • [19].EPSPS蛋白和PAT蛋白的模拟胃液消化稳定性分析[J]. 卫生研究 2020(03)
    • [20].动物细胞培养过程PAT和在线生物检测技术[J]. 生物产业技术 2018(01)
    • [21].基于PAT的使用控制模型的形式化规约与安全性分析[J]. 网络与信息安全学报 2016(03)
    • [22].TNF-α、LPS、IL-6、PAT与颅脑损伤后急性凝血功能障碍的相关性[J]. 中国临床神经外科杂志 2015(01)
    • [23].PAT量表联合IADIT量表指导护理降低婴幼儿失禁性皮炎发生的临床价值[J]. 实用临床护理学电子杂志 2020(17)
    • [24].巴斯夫与PAT签署合作协议 探索作物保护市场新型生物农药商机[J]. 农药市场信息 2016(25)
    • [25].巴斯夫与PAT签署合作协议探索作物保护市场新型生物农药商机[J]. 山东农药信息 2016(05)
    • [26].巴斯夫与PAT签署合作协议 探索作物保护市场新型生物农药商机[J]. 上海化工 2016(10)
    • [27].不同碳源、氮源对粗毛黄褐孔菌[Inonotus hispidus(Bull.)Pat.]菌丝生长量的影响[J]. 医学信息(中旬刊) 2011(09)
    • [28].过程分析技术(PAT)在原料药生产中的应用[J]. 分析测试学报 2020(10)
    • [29].基于QBD理念和PAT技术的仪器分析实验教学研究与实践[J]. 山东化工 2019(12)
    • [30].Braden量表联合PAT预测重症气管切开患者失禁性皮炎发生的研究[J]. 护理与康复 2018(04)

    标签:;  ;  ;  ;  

    基于双字哈希的PAT树词典机制的研究
    下载Doc文档

    猜你喜欢