基于检准率分析中文自动标引方式存在问题及对策

基于检准率分析中文自动标引方式存在问题及对策

论文摘要

自动标引一直以来都是计算机科学、语言学、图书馆学情报学共同研究的热点问题。随着社会信息化进程的加快,信息资源无论是从发展的规模上,还是覆盖的领域上都得到了极大的发展。但是,由于信息资源数量大、范围广、动态性强,再加上自动标引智能化水平较低,使得信息检准率不高。我国自上世纪八十年代初就开展了对中文自动标引的研究,并在研究期间取得了一定的成果和进展。中文自动标引方式主要包括:单汉字标引、自动抽词、自动赋词、自动分类、N-Gram法、后控制词等方式。从检准率的角度来对中文自动标引方式的标引效果进行分析研究,从而使中文自动标引方式有所改进,并在检索系统中能够被合理有效地利用。本文从检准率的角度,利用文献调查法、计数数据分析法、电话访谈法等对各种中文标引方式的进行了考察。其次,从检索数据库的选择,研究过程描述,数据列表、分析结论等几个研究工作环节,展开了详细的研究。最后,根据检准率的调查数据,分析中文自动标引各种标引方式存在问题,并提出了改进该标引方式的对策和建议。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 选题背景
  • 1.2 研究目的及意义
  • 1.2.1 研究目的
  • 1.2.2 研究意义
  • 1.3 国内外研究现状
  • 1.3.1 国外研究现状
  • 1.3.2 国内研究现状
  • 1.4 研究方法及论文结构
  • 1.4.1 本文主要采用的研究方法
  • 1.4.2 论文主要研究内容
  • 1.5 本文主要创新点
  • 第2章 自动标引工作环节及中文自动标引的类型
  • 2.1 以词为检索标识的自动标引工作环节
  • 2.1.1 自动分词
  • 2.1.2 自动标引
  • 2.2 中文自动标引类型
  • 2.2.1 自动抽词标引
  • 2.2.2 自动赋词标引
  • 2.2.3 自动分类
  • 2.2.4 单汉字标引
  • 2.2.5 N-Gram 法
  • 2.2.6 后控制词表技术
  • 第3章 基于检准率分析中文自动标引方式相关问题的调查
  • 3.1 中文自动标引方式在检索系统中的重要作用
  • 3.2 调查目的与主要方法
  • 3.2.1 调查目的
  • 3.2.2 主要方法
  • 3.3 调查设问和实施
  • 3.3.1 调查问题的设置
  • 3.3.2 调查过程
  • 第4章 基于检准率的中文自动标引方式相关数据分析
  • 4.1 单汉字标引方式下的CNKI 数据库检索系统检准率数据
  • 4.1.1 数据分析
  • 4.1.2 单汉字标引方式的优缺点
  • 4.2 人工干预自动抽词标引方式的万方数据库检索系统检准率数据
  • 4.2.1 数据分析
  • 4.2.2 人工干预下的自动抽词标引方式的优缺点
  • 4.3 自动分类标引方式下的搜狗检索结果处理系统的检准率数据
  • 4.3.1 数据分析
  • 4.3.2 自动分类标引方式的优缺点
  • 4.4 自动抽词标引方式的检准率定性分析
  • 4.4.1 自动抽词标引方式检准率的数据定性分析
  • 4.4.2 自动抽词标引方式的优缺点
  • 4.5 自动赋词标引方式的检准率定性分析
  • 4.5.1 自动赋词标引方式检准率的数据定性分析
  • 4.5.2 自动赋词标引方式的优缺点
  • 第5章 中文自动标引方式存在的问题及发展对策
  • 5.1 中文自动标引方式存在的问题和不足
  • 5.1.1 单汉字标引的检准率较低
  • 5.1.2 以词为检索标识问题依旧突出
  • 5.1.3 信息标引过程中忽略了人工标引方式
  • 5.2 改进中文自动标引方式的对策和建议
  • 5.2.1 采用人机结合的方式提高检准率
  • 5.2.2 明确中文自动标引与全文检索、搜索引擎之间的关系
  • 5.2.3 推进本体、语义网及人工智能技术的使用
  • 5.2.4 更深入应用中文信息抽取技术
  • 5.2.5 建立统一的中文自动标引评价体系
  • 5.2.6 进一步完善后控制词技术
  • 第6章 总结与展望
  • 6.1 论文总结
  • 6.2 研究展望
  • 参考文献
  • 附注
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    基于检准率分析中文自动标引方式存在问题及对策
    下载Doc文档

    猜你喜欢