汉语词汇,是汉语里所有词和固定短语的总和。现有词语(词或短语)检索系统可以通过词形(写法)和读音(拼音)来检索词语。然而,常有这样的情形:人们想要表达某个意思,但一时想不出恰当的词语。此时,人们需要在既不知道词语的写法、也不知道其读音的情况下,找到尽可能恰当的词语(一个或多个)——现有的基于词形或读音或二者的结合都办不到,而需要“基于义的检索”才有可能。基于关键词的检索方式可以通过关键词的组合来表达简单的语义信息,但是这种检索方式主要是对用户输入的查询请求进行字串匹配,往往会检索出大量的无用信息,并且在大多数情况下用户很难用简单的几个关键词来忠实地表达检索需求。所以,基于关键词的检索只是实现了初级的“基于语义”的检索,要实现通过语义检索词语,基于关键词的检索还远远不够。针对这一现状,考虑到汉语词汇的丰富复杂,本文选取了汉语词汇中的成语作为研究对象,探索了基于语义的成语检索方法。成语是人们长期习用的具有特定含义和定型结构的固定词组,是汉语词汇系统中的重要组成部分。基于语义的成语检索主要是为了解决用户能在仅知道要表达的意思的情况下能够检索到所需成语。本文所做的工作主要有:(1)对成语所蕴含的概念和其间的语义关系进行了较深入的研究分析,构建出成语领域本体。(2)对用户以自然语言形式提出的查询请求进行了语法分析。主要包括,先采用分词系统对用户的查询请求进行分词和词性标注,再根据语言学知识和成语检索的具体情况提取其中的关键词集合。(3)对语法分析后得到的结果进行语义分析。由于成语领域本体描述了成语领域中的概念及概念间的各种语义关系,将关键词集合映射到本体的概念中,关键词之间就建立了语义关系。映射过程中使用《同义词词林》作为语义词典来进行词语和句子的语义相似度计算。(4)通过基于描述逻辑的推理机对本体进行推理,从而检索出满足用户需求的成语集。(5)实现了基于语义的成语检索系统原型,并做了相应的试验研究。结果表明,该系统实现了通过语义检索成语的功能,在满足用户此类需求上取得了初步成效。
本文来源: https://www.lw50.cn/article/a63f2d322c3d57e501cfdd94.html