论文摘要
命名实体识别是自然语言处理领域的重点研究方向之一,是信息抽取、信息检索、信息过滤、问答系统、机器翻译等多种自然语言处理技术必不可少的组成部分。近几年,随着微博的兴起与发展,微博文本作为命名实体识别新的载体,逐渐得到越来越多相关研究人员的重视。由于微博文本与传统文本在表达形式上具有很大差别,使得传统的命名实体识别方法在微博文本上面临新的挑战。因此研究面向微博文本的命名实体识别能促进自然语言处理技术在微博等新媒体上的发展,具有重要的理论意义和应用价值。本文主要研究面向微博文本的以人名、地名、机构名为核心的中文命名实体识别相关技术。微博文本由于自身的特点,其内部隐藏着大量可供命名实体识别使用的重要信息。本文首先通过比较微博文本与传统文本的区别,挖掘出微博文本自身的结构与内容上的特点;对有利于命名实体识别的标签、评论转发等特点加以利用,对不利于命名实体识别的语言不规范、简称、代称等特点通过统计的方法加以克服。在此基础上,本文提出了一种基于统计与规则相结合的命名实体识别的方法。该方法在分词的基础上,通过构建好的常用字词表进行常用字词过滤,再利用统计的方法对微博文本的评论转发内容进行统计分析,最后配合使用命名实体边界规则信息进行命名实体的识别。通过实验表明,该方法对于微博文本中的命名实体识别达到了一定的精度,在对2013年5月份的30000条微博文本语料上进行测试,命名实体识别的F值可以达到97.93%。与传统文本相比,微博文本在文本长度、文本质量等方面都有较大差距,而与传统文本中命名实体识别相比,微博文本的命名实体识别无论是在在文本处理深度还是在知识资源支持等方面都还有很大的不足。因此在工作过程中,对微博文本的每一个特征,我们都分析了现有资源和方法对面向微博文本的命名实体识别的支持和制约,探索性的研究了具有一定鲁棒性的命名实体识别的方法,以期为进一步的研究奠定基础、找到突破口,以便为下一步工作提供经验。
论文目录
相关论文文献
标签:中文命名实体识别论文; 微博论文; 短文本论文;