词性在汉语科技文献检索中的作用与影响

词性在汉语科技文献检索中的作用与影响

论文摘要

词性标注是自然语言处理词法分析中一种较为成熟的技术,而自然语言处理在信息检索中又占有举足轻重的作用,将词性用于外文文献信息检索已有一定的研究,研究表明词性用于外文文献信息检索有一定影响,但影响不大。本研究主要针对词性用于汉语科技文献检索的作用和影响进行研究,试图用测评数据说明影响程度和作用大小。整个研究过程中,实现了畜牧兽医语料库和词表的建立工作。词性标注过程利用的是中国科学院计算技术研究所研制出的基于多层隐马尔可夫模型的汉语词法分析系统ICTCLAS、南京农业大学研究生程冲设计的CARMM系统中的未登录词功能以及自建的畜牧兽医词表相结合的方式实现,词性标记集选用的是汉语文本词性标注标记集(北大版)。采用了两种提取检索词方式和多种检索模型,其中,两种提取检索词方式包括保留14维词性提取的检索词方式和人工辅助参与提取检索词方式;多种检索模型包括传统的布尔逻辑检索模型、“部分匹配的”布尔逻辑检索模型和向量空间模型。在向量空间模型中,根据阈值取值有其自身的不足的特点,本研究采用了两种阈值2%和5%的方式,得到了多种测评数据。根据测评数据,得出了带词性的检索和不带词性的检索的测评结果。测评结果采用四种方式测评,分别是概括表统计(包括每个检索提问式的R、P和Rav、Pav四个指标的测评结果表),R、P折线图,R、P差额直方图和R、P差值平均值表。最终根据测评结果,得出了在检全率方面,不带词性的检索效率要高于带词性的检索效率;在检准率方面,除了“部分匹配的”布尔逻辑检索结果显示的是不带词性的检索检准率要高之外,其他结果都表明带词性的检索要略胜一筹。总体来看,带词性的检索并没有体现多大的优越性。而且,从测评结果来看,在词性用于检索的同时选择的检索模型也是制约最终结果的一个因素。本研究总的来看主要创新可以归结为4个方面。第一,词性首次用于汉语文献检索。第二,对文献语词和提问检索词的词性进行了14维降维处理,提高了检索效率;第三,设计了可用于词性检索的“部分匹配的布尔逻辑模型”;第四,用实验测评数据得出了词性检索对汉语文献检索的影响程度。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 自然语言处理(NLP)在信息检索中的应用
  • 1.1.1 自然语言处理(NLP)发展的三个阶段
  • 1.1.2 自然语言处理技术的应用
  • 1.1.3 自然语言处理资源的应用
  • 1.2 词性用于汉语科技文献检索的现实可能性
  • 1.3 论文主要研究的内容和框架
  • 第二章 词性标注的国内外研究动态
  • 2.1 词性标注的含义与目的
  • 2.2 词性标注方法分类
  • 2.3 国外英文词性标注的研究
  • 2.3.1 国外的词性标注的语料库和标注系统
  • 2.3.2 国外学者对词性标注的模型研究
  • 2.4 国内汉语词性标注的研究
  • 2.4.1 国内汉语词性标注的语料库和标注系统
  • 2.4.2 国内学者对词性标注模型的研究
  • 2.5 词性标注对信息检索系统性能影响的研究
  • 2.5.1 目前词性标注用于检索的研究
  • 2.5.2 词性标注用于检索的两种用法
  • 2.5.3 词性标注对外文信息检索系统性能的影响
  • 2.5.4 词性标注对汉语文献信息检索系统性能的影响
  • 第三章 基于词性的科技文献检索过程设计与实现
  • 3.1 建库
  • 3.1.1 文献来源
  • 3.1.2 文献格式和内容处理
  • 3.1.3 文献库设计
  • 3.2 专业词表建立
  • 3.3 切词和词性标注
  • 3.3.1 机器切词和词性标注
  • 3.3.2 人工辅助标注
  • 3.3.3 切词结果处理
  • 3.3.4 存库
  • 3.4 权值计算
  • 3.4.1 词频统计
  • 3.4.2 权值公式的选择
  • 3.4.3 归一化处理
  • 3.4.4 数据记录结构
  • 3.5 提问式设计
  • 3.6 相关文献分析
  • 3.7 检索模型的选择
  • 3.7.1 布尔逻辑模型检索
  • 3.7.2 向量空间模型检索
  • 3.8 检索的程序实现
  • 3.8.1 提问式导入
  • 3.8.2 提问式词性标注
  • 3.8.3 提取检索词
  • 3.8.4 向量检索
  • 3.8.5 布尔检索
  • 第四章 比较测评
  • 4.1 常用信息检索系统测评方法
  • 4.1.1 测评指标
  • 4.1.2 概括表统计
  • 4.1.3 检准率、检全率折线图
  • 4.1.4 检准率、检全率差额直方图
  • 4.2 比较测评
  • 4.2.1 表格测评结果
  • 4.2.2 R、P的折线图测评结果
  • 4.2.3 R、P差值直方图和R、P差值的平均值表的测评结果
  • 4.2.4 测评小结
  • 4.3 与英文词性检索测评研究的比较
  • 第五章 总结与展望
  • 5.1 本文研究的主要创新
  • 5.1.1 词性首次系统地用于汉语文献检索
  • 5.1.2 降维处理
  • 5.1.3 设计了可用于词性检索的“部分匹配的布尔逻辑模型”
  • 5.1.4 得出了词性检索对汉语文献检索的影响程度
  • 5.2 本文研究的不足之处
  • 5.2.1 专业词表建立的不够完善
  • 5.2.2 语料库专业单一,适用范围狭窄
  • 5.2.3 提问式的处理不能排除主观性
  • 5.3 后续研究工作
  • 5.3.1 扩大语料库的学科范围
  • 5.3.2 扩大语料库文献数目
  • 5.3.3 建立适合词性检索的检索模型
  • 参考文献
  • 附录1 汉语文本词性标注标记集(北大版)
  • 附录2 37个检索提问式的测评结果表
  • 致谢
  • 相关论文文献

    • [1].对“以”字两种意同词性不同情况的分析[J]. 教书育人 2020(11)
    • [2].中西方“围城”中“侥幸”类副词性关联词语比较[J]. 现代语文(语言研究版) 2017(07)
    • [3].“词性对从宽”之我见[J]. 对联(民间对联故事)(下半月) 2009(02)
    • [4].类型学视域下的“特提”类副词性关联词语比较研究[J]. 江苏科技大学学报(社会科学版) 2017(03)
    • [5].英语教学中词性的学习掌握[J]. 新课程导学 2011(04)
    • [6].辨析文言副词、连词词性的方法[J]. 考试周刊 2008(33)
    • [7].“无须”与“无需”用法有何区别?[J]. 编辑学报 2011(03)
    • [8].“无须”与“无需”用法有何区别?[J]. 无锡职业技术学院学报 2011(04)
    • [9].英汉副词性关联词语的自主/依存联结探究[J]. 外语与外语教学 2020(03)
    • [10].浅析“自己”两种词性的判别——以“老王试图自己解决问题”为例[J]. 安徽文学(下半月) 2014(10)
    • [11].“一起”的词性研究[J]. 和田师范专科学校学报 2015(03)
    • [12].论副词性独立成分及其语篇功能[J]. 外语与翻译 2015(02)
    • [13].模型词性论[J]. 山西大学学报(哲学社会科学版) 2013(02)
    • [14].词性对中英文文本聚类的影响研究[J]. 中文信息学报 2013(02)
    • [15].浅谈“莫”字词性[J]. 汉字文化 2018(09)
    • [16].情感分类中基于词性嵌入的特征权重计算方法[J]. 计算机工程与应用 2017(22)
    • [17].重视词性教学,帮助学生提高英语学习能力[J]. 英语画刊(高级版) 2019(19)
    • [18].浅析中学英语教学中的词性教学[J]. 校园英语 2015(01)
    • [19].谈德语名词词性的学习方法[J]. 考试周刊 2009(37)
    • [20].对联中的词性对仗[J]. 人才资源开发 2011(09)
    • [21].浅谈“不料”的词性[J]. 广西大学学报(哲学社会科学版) 2008(S2)
    • [22].体词性成分充任分句之指称的陈述化研究[J]. 牡丹江教育学院学报 2019(03)
    • [23].论「何より」中「より」的词性[J]. 教育教学论坛 2015(31)
    • [24].广西崇左新和镇蔗园话中“住”的词性、意义和用法[J]. 现代语文(语言研究版) 2009(08)
    • [25].北京话中起辨义作用的儿化词语的词性变化[J]. 汉字文化 2013(03)
    • [26].从语法化角度看汉语词性论争问题——以“是”为例[J]. 语文建设 2013(17)
    • [27].词性误译及其新价值探究[J]. 黑龙江科技信息 2012(23)
    • [28].代词性间接回指的认知阐释[J]. 绵阳师范学院学报 2012(10)
    • [29].从词性看“何”和“何だ”的用法及汉译的不同[J]. 日语知识 2008(05)
    • [30].英汉量词性隐喻对比初探[J]. 安徽文学(下半月) 2008(05)

    标签:;  ;  ;  ;  

    词性在汉语科技文献检索中的作用与影响
    下载Doc文档

    猜你喜欢