论文摘要
自动标引一直以来都是计算机科学、语言学、图书馆学情报学共同研究的热点问题。随着社会信息化进程的加快,信息资源无论是从发展的规模上,还是覆盖的领域上都得到了极大的发展。但是,由于信息资源数量大、范围广、动态性强,再加上自动标引智能化水平较低,使得信息检准率不高。我国自上世纪八十年代初就开展了对中文自动标引的研究,并在研究期间取得了一定的成果和进展。中文自动标引方式主要包括:单汉字标引、自动抽词、自动赋词、自动分类、N-Gram法、后控制词等方式。从检准率的角度来对中文自动标引方式的标引效果进行分析研究,从而使中文自动标引方式有所改进,并在检索系统中能够被合理有效地利用。本文从检准率的角度,利用文献调查法、计数数据分析法、电话访谈法等对各种中文标引方式的进行了考察。其次,从检索数据库的选择,研究过程描述,数据列表、分析结论等几个研究工作环节,展开了详细的研究。最后,根据检准率的调查数据,分析中文自动标引各种标引方式存在问题,并提出了改进该标引方式的对策和建议。
论文目录
摘要Abstract第1章 绪论1.1 选题背景1.2 研究目的及意义1.2.1 研究目的1.2.2 研究意义1.3 国内外研究现状1.3.1 国外研究现状1.3.2 国内研究现状1.4 研究方法及论文结构1.4.1 本文主要采用的研究方法1.4.2 论文主要研究内容1.5 本文主要创新点第2章 自动标引工作环节及中文自动标引的类型2.1 以词为检索标识的自动标引工作环节2.1.1 自动分词2.1.2 自动标引2.2 中文自动标引类型2.2.1 自动抽词标引2.2.2 自动赋词标引2.2.3 自动分类2.2.4 单汉字标引2.2.5 N-Gram 法2.2.6 后控制词表技术第3章 基于检准率分析中文自动标引方式相关问题的调查3.1 中文自动标引方式在检索系统中的重要作用3.2 调查目的与主要方法3.2.1 调查目的3.2.2 主要方法3.3 调查设问和实施3.3.1 调查问题的设置3.3.2 调查过程第4章 基于检准率的中文自动标引方式相关数据分析4.1 单汉字标引方式下的CNKI 数据库检索系统检准率数据4.1.1 数据分析4.1.2 单汉字标引方式的优缺点4.2 人工干预自动抽词标引方式的万方数据库检索系统检准率数据4.2.1 数据分析4.2.2 人工干预下的自动抽词标引方式的优缺点4.3 自动分类标引方式下的搜狗检索结果处理系统的检准率数据4.3.1 数据分析4.3.2 自动分类标引方式的优缺点4.4 自动抽词标引方式的检准率定性分析4.4.1 自动抽词标引方式检准率的数据定性分析4.4.2 自动抽词标引方式的优缺点4.5 自动赋词标引方式的检准率定性分析4.5.1 自动赋词标引方式检准率的数据定性分析4.5.2 自动赋词标引方式的优缺点第5章 中文自动标引方式存在的问题及发展对策5.1 中文自动标引方式存在的问题和不足5.1.1 单汉字标引的检准率较低5.1.2 以词为检索标识问题依旧突出5.1.3 信息标引过程中忽略了人工标引方式5.2 改进中文自动标引方式的对策和建议5.2.1 采用人机结合的方式提高检准率5.2.2 明确中文自动标引与全文检索、搜索引擎之间的关系5.2.3 推进本体、语义网及人工智能技术的使用5.2.4 更深入应用中文信息抽取技术5.2.5 建立统一的中文自动标引评价体系5.2.6 进一步完善后控制词技术第6章 总结与展望6.1 论文总结6.2 研究展望参考文献附注致谢
相关论文文献
标签:中文自动标引方式论文; 检索系统论文; 检准率论文;