论文题目: 计算机辅助诗词创作中的风格辨析及联语应对研究
论文类型: 博士论文
论文专业: 计算机应用技术
作者: 易勇
导师: 吴中福,何中市
关键词: 自然语言处理,联语生成,文学风格,古典诗词,机器学习
文献来源: 重庆大学
发表年度: 2005
论文摘要: 作为中国文化传承和精美艺术品的诗词曲联作品,在信息时代面临着重新整理和信息挖掘的问题,而立足于当代,需要运用信息处理工具进行深入分析和智能模拟,由于语料库技术和机器学习技术的发展,解决了海量数据的结构化存储和机器自动处理的问题。在机器学习的框架下,传统诗词的问题得到探索分析的条件已经初步具备,相对而言传统的文学分析能在信息技术的提携下,获得处理理念和视角上的一次更生,使得海量而又错综棘手的古典文学分析研究,在机器辅助下,其结果更加易懂明了,其处理更加自动化。本文是在国家自然科学基金项目“计算机辅助文学艺术创作——诗词曲联(上)(项目编号60173060)的支持下,进行的是应用驱动型的研究,即“诗词风格的机器评判和联语(对仗)语句的生成”。在本文的研究中,对诗词采用向量空间模型表示,并用基于机器学习中的Na?ve Bayes 等方法,首次提出了古典诗词的豪放和婉约风格辨析计算模型,并用遗传算法等方法对模型进行改进,取得较好的诗词风格评判结果。首次提出了古典诗词的作者辨析计算模型,该模型已经在精典诗词语料的机器学习基础上得以实现,也获得较好的诗词作者评判效果。通过将联语应对问题转化为序列学习建模的问题,进行了联语应对生成的研究,依据输入的上联,机器能较为成功地应对生成下联,并在实际的诗词对联语料数据上进行了大量的实验,实验的结果验证了这些方法的可行性和有效性。本论文的主要研究内容如下: 1) 由于机器学习和古典文学数字化的需要,本文提出的方法和实验研究都基于语料库的数据驱动进行,因此简要介绍了唐诗、宋词和对联语料库的建立。这部分内容主要集中在本文的第二章。2) 针对高度抽象的艺术概念“风格”的辨析,着重从三个问题展开研究。第一、诗词的风格能否用机器评判,即可行性问题;第二、诗词的风格由机器通过什么方式评判,即怎么做问题;第三、如何提高机器评判的效果,即优化问题。对于第一个问题,本文提出将诗词的风格评判问题转化为一种文本的模式识别问题而得以解决。对于第二个问题,本文探索了诗词的韵部和声调对风格的影响,发现两者对解决诗词风格的评判问题的难度较大,最后采用了用以字为研究对象的向量空间模型来表示诗词,使诗词的风格得以顺利进行。对于第三个问题,结合信息增益挑选用于风格评判的汉字,并用遗传算法等方法改进了诗词风格的评判效果,用55 个汉字获得了88.5%的评判准确度。这部分内容方法论述集中在本文的第三章,实验介绍在第四章。
论文目录:
中文摘要
英文摘要
1 绪论
1.1 前言
1.2 论文中基础概念的界定
1.3 研究选题的出发点
1.4 相关领域已有的研究
1.4.1 古诗的计算机辅助分析
1.4.2 春联艺术的初探
1.4.3 基于词联接的自然语言处理技术
1.5 本课题的研究基础与语料资源
1.6 研究的技术背景
1.6.1 自然语言处理
1.6.2 自然语言处理系统的阶段
1.6.3 自然语言处理技术的发展趋势
1.6.4 汉语自然语言处理
1.7 本文研究的主要贡献
1.8 本章小结
2 唐诗、宋词和对联语料库的建立
2.1 诗词对联的特点
2.2 语料库语言学的研究
2.3 唐诗宋词语料的数据库建构
2.4 对联语料库的建立
2.5 本章小结
3 诗词风格的机器评判
3.1 诗词的风格
3.2 文本的模式识别
3.2.1 文本模式识别的概述
3.2.2 诗词风格评判的流程图
3.2.3 文本模式识别方法
3.3 诗词文本的机器表示
3.3.1 向量空间模型的基本概念
3.3.2 特征空间的确定(特征项的选择)
3.3.3 诗词风格的表示模型
3.3.4 特征的权值选择
3.3.5 诗词数据的处理流程
3.4 诗词风格评判中的特征选择
3.4.1 用信息增益进行特征选择
3.4.2 启发式搜索算法
3.4.3 用爬山法进行特征选择
3.4.4 用遗传算法进行特征选择
3.5 本章小结
4 诗词风格评判的实验
4.1 诗词豪放婉约风格评判实验
4.2 诗词作者风格的机器评判实验
4.2.1 基于字出现的诗词作者评判实验概述
4.2.2 诗词作者机器学习和判别器的测试结果
4.3 本章小结
5 诗词风格特点的探索分析
5.1 豪放婉约词的层次聚类分析
5.1.1 层次聚类算法
5.1.2 豪放词和婉约词层次聚类分析
5.2 SOM自组织特征映射聚类分析
5.2.1 自组织特征映射网络原理
5.2.2 SOM 网络的结构
5.2.3 SOM 对诗词数据的聚类试验
5.3 李白杜甫诗的层次聚类分析
5.4 诗词风格的探索性分析总结
5.5 本章小结
6 计算机联语应对生成研究
6.1 研究的背景
6.2 联语的概况
6.2.1 联语的艺术特点
6.2.2 联语语句的特点
6.3 研究现状
6.4 研究的方法
6.4.1 研究的总体思路
6.4.2 统计机器学习在NLP 中的应用
6.4.3 机器学习与统计语言模型的关系
6.5 序列学习问题
6.6 隐马尔可夫模型序列学习方法
6.6.1 马尔可夫模型
6.6.2 隐马尔可夫模型
6.7 N元统计语言模型序列学习方法
6.8 基于转换的错误驱动序列学习法
6.8.1 转换规则的学习算法
6.9 本章小结
7 联语应对生成实验
7.1 实验方法
7.2 实验数据
7.3 实验结果
7.4 实验总结
7.5 本章小结
8 全文总结与展望
8.1 总结
8.2 进一步的研究规划
致谢
参考文献
附录 A
附录 B
后记
发布时间: 2005-11-07
参考文献
- [1].基于词联接的自然语言处理技术及其应用研究[D]. 李良炎.重庆大学2004
- [2].最大熵方法及其在自然语言处理中的应用[D]. 周雅倩.复旦大学2005
- [3].基于场景化知识表示的自然语言处理及其在自动文本校对中的应用[D]. 王燚.西南交通大学2005
- [4].汉语指代消解及相关技术研究[D]. 王智强.北京邮电大学2006
- [5].汉英双语语料库自动对齐研究[D]. 王斌.中国科学院研究生院(计算技术研究所)1999
- [6].自然语言处理中词相关性知识无导获取和均衡分类器构建[D]. 鲁松.中国科学院研究生院(计算技术研究所)2001
- [7].基于自然语言处理的空间概念建模研究[D]. 李晗静.哈尔滨工业大学2007
- [8].基于分布表示的跨语言跨任务自然语言分析[D]. 郭江.哈尔滨工业大学2017
- [9].高适应性基于实例的机器翻译中关键技术研究[D]. 任飞亮.东北大学2008
- [10].基于深度学习的文本向量化研究与应用[D]. 于政.华东师范大学2016
相关论文
- [1].汉语语义知识的表示及其在汉英机译中的应用[D]. 齐璇.国防科学技术大学2002
- [2].汉英机器翻译中汉语上下文语境的表示与应用研究[D]. 马红妹.中国人民解放军国防科学技术大学2002
- [3].文本过滤关键技术研究[D]. 夏迎炬.复旦大学2003
- [4].关于计算机理解自然查询语言的研究[D]. 郑逢斌.西南交通大学2004
- [5].中文信息处理中若干关键技术的研究[D]. 王建会.复旦大学2004
- [6].基于词联接的自然语言处理技术及其应用研究[D]. 李良炎.重庆大学2004
- [7].最大熵方法及其在自然语言处理中的应用[D]. 周雅倩.复旦大学2005
- [8].基于模式知识库的问题回答关键技术研究[D]. 杜永萍.复旦大学2005
- [9].基于人工免疫的入侵分析技术研究[D]. 钟将.重庆大学2005
- [10].基于场景化知识表示的自然语言处理及其在自动文本校对中的应用[D]. 王燚.西南交通大学2005