规则与统计相结合的音乐领域命名实体识别

规则与统计相结合的音乐领域命名实体识别

论文摘要

音乐是人类史上一个永恒的主题,是人们情感的寄托和外化。随着互联网的不断发展,人们接触到的音乐信息更是层出不穷,如何从浩瀚的信息中获取感兴趣的内容是亟待解决的问题。因此,人们迫切需要一些自动化工具对音乐领域的海量信息进行处理,音乐搜索、音乐个性化推荐、音乐趋势分析等研究便应运而生。而音乐命名实体(简称音乐实体)如歌手名、歌曲名等是音乐信息中最基本的元素。因此,如何从海量的音乐信息中正确识别出音乐实体是一个非常重要的研究课题,也是其它相关研究的重要基础。音乐实体识别是命名实体识别的一个垂直组成部分。现阶段国内外在命名实体识别方面已经有大量的研究工作,尤其是在人名、地名和机构名的识别上。而在音乐实体识别方面的研究很少,涉及到中文歌曲名、专辑名识别的更少。因此,为了准确、全面地识别出音乐实体,我们需要全方位了解音乐领域中命名实体的特征,并借鉴已有的命名实体识别技术来设计一个中文音乐实体识别系统。本文研究了中文命名实体识别方法在音乐领域相关Web信息中的应用,以便人们能够快速、准确地将分散在不同网页中的音乐实体抽取出来。本文主要在以下两个方面开展了工作:第一,设计了一种分布式网络蜘蛛框架和提出了一种基于DOM的Web主题信息提取方法,并且改进了分词模块,为音乐命名实体的识别做了准备工作。第二,通过对音乐实体及上下文特点的分析,提出了一种规则与统计相结合的音乐实体识别方案。其核心思想为:首先,在分词之前采用基于规则的方法来识别部分明显的音乐实体。然后,在分词之后引入隐马尔科夫模型来识别大部分音乐实体。最后,利用音乐实体库和修正规则,对识别结果进行修正。该方法兼顾了统计与规则两种方法的优点。同时,我们提出了一种新颖、实用的训练语料标注方案,这使得隐马尔科夫模型在音乐实体识别上变得实际可行。本文在上述工作的基础上实现了音乐命名实体识别系统。通过测试发现,该系统具有较高的准确率和召回率,证明本文所提出的方案具有一定的研究意义和实用价值。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 作者所做工作
  • 1.4 论文章节安排
  • 第二章 命名实体识别概述
  • 2.1 命名实体识别的方法
  • 2.1.1 基于规则的方法
  • 2.1.2 基于统计的方法
  • 2.1.3 混合方法
  • 2.2 命名实体识别相关模型及算法
  • 2.2.1 N-gram 模型
  • 2.2.2 马尔科夫模型
  • 2.2.3 隐马尔科夫模型
  • 2.2.4 数据平滑算法
  • 2.3 命名实体识别的评测标准
  • 2.4 音乐命名实体识别
  • 2.4.1 音乐命名实体识别的概念
  • 2.4.2 音乐命名实体识别的难点
  • 2.5 本章小结
  • 第三章 数据预处理相关技术
  • 3.1 网络蜘蛛
  • 3.1.1 网络蜘蛛的原理
  • 3.1.2 分布式网络蜘蛛
  • 3.1.3 汉字编码问题
  • 3.2 WEB 主题信息抽取
  • 3.2.1 Web 主题信息抽取技术概述
  • 3.2.2 基于DOM 的Web 主题信息抽取
  • 3.3 分词
  • 3.4 本章小结
  • 第四章 规则与统计相结合的音乐实体识别
  • 4.1 训练语料标注
  • 4.2 基于规则的音乐实体识别
  • 4.2.1 构建规则库
  • 4.2.2 算法描述
  • 4.3 基于统计的音乐实体识别
  • 4.3.1 隐马尔科夫模型的定义
  • 4.3.2 训练隐马尔科夫模型
  • 4.3.3 过滤解码算法
  • 4.4 音乐实体修正过程
  • 4.4.1 音乐实体库的构造
  • 4.4.2 修正过程描述
  • 4.5 本章小结
  • 第五章 音乐实体识别系统的实现与评测
  • 5.1 系统总体框架
  • 5.1.1 逻辑架构设计模型概览
  • 5.1.2 逻辑架构设计使用的模式
  • 5.2 系统运行实例
  • 5.3 系统的测试及分析
  • 5.3.1 实验语料
  • 5.3.2 实验设计
  • 5.3.3 实验结果
  • 5.3.4 结果分析
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 致谢
  • 参考文献
  • 攻硕期间取得的研究成果
  • 相关论文文献

    • [1].跨语言命名实体翻译对抽取的研究综述[J]. 计算机科学 2017(S1)
    • [2].命名实体情报挖掘方法研究及其在图书馆中的发展[J]. 图书馆理论与实践 2017(10)
    • [3].命名实体类流行语描述性释义的识别研究[J]. 现代语文(语言研究版) 2015(02)
    • [4].基于多标签的军事领域命名实体识别[J]. 计算机科学 2019(S2)
    • [5].基于特征相似度的可比语料挖掘汉柬命名实体等价对[J]. 计算机与数字工程 2017(05)
    • [6].基于转移学习的命名实体挖掘技术[J]. 上海交通大学学报 2011(02)
    • [7].一种无指导命名实体关系抽取研究[J]. 咸宁学院学报 2009(06)
    • [8].基于模板的汉维商品命名实体翻译研究[J]. 现代计算机(专业版) 2015(08)
    • [9].一种基于概率主题模型的命名实体链接方法[J]. 软件学报 2014(09)
    • [10].地理命名实体分类体系的设计与应用分析[J]. 地球信息科学学报 2010(02)
    • [11].基于条件随机场的中医临床医案症状命名实体抽取研究[J]. 世界科学技术-中医药现代化 2020(06)
    • [12].从客户评论中识别命名实体——基于最大熵模型的实现[J]. 现代图书情报技术 2011(05)
    • [13].基于机器翻译语块的命名实体翻译方法研究[J]. 硅谷 2015(03)
    • [14].多特征融合的中文命名实体链接方法研究[J]. 情报学报 2019(01)
    • [15].基于深度表示的中医病历症状表型命名实体抽取研究[J]. 世界科学技术-中医药现代化 2018(03)
    • [16].基于词向量和条件随机场的中文命名实体分类[J]. 计算机工程与设计 2020(09)
    • [17].命名实体关系抽取算法的改进[J]. 计算机工程 2010(24)
    • [18].中文嵌套命名实体关系抽取研究[J]. 北京大学学报(自然科学版) 2019(01)
    • [19].基于用户查询日志的命名实体挖掘[J]. 中文信息学报 2010(01)
    • [20].基于多模型结合的军事命名实体识别[J]. 兵工自动化 2011(10)
    • [21].电子病历中命名实体的智能识别[J]. 中国生物医学工程学报 2011(02)
    • [22].音乐命名实体识别方法[J]. 计算机应用 2010(11)
    • [23].中文网页搜索日志中的特殊命名实体挖掘[J]. 哈尔滨工业大学学报 2011(05)
    • [24].基于条件随机场的中医临床病历命名实体抽取[J]. 计算机工程 2014(09)
    • [25].面向工艺操作说明文本的命名实体深度学习识别方法[J]. 计算机应用与软件 2019(11)
    • [26].中文文本的地理命名实体标注[J]. 测绘学报 2012(01)
    • [27].基于Web的命名实体提取的研究方法[J]. 哈尔滨师范大学自然科学学报 2010(02)
    • [28].基于知识图谱的命名实体消歧方法研究[J]. 计算机产品与流通 2020(08)
    • [29].基于半监督话题模型的用户查询日志命名实体挖掘[J]. 中文信息学报 2012(05)
    • [30].基于正反例训练的SVM命名实体关系抽取[J]. 计算机应用 2008(06)

    标签:;  ;  ;  ;  

    规则与统计相结合的音乐领域命名实体识别
    下载Doc文档

    猜你喜欢