论文摘要
宋词作为中国古代文学历史上一颗璀璨的明珠,古往今来,无数的学者和研究人员对其投入了大量的研究精力。而对宋词风格的研究更是这些研究中较为重要的一个方面,然而,目前这方面的研究主要集中在人文学领域。本文主要从计算机的角度出发,利用现代的信息处理技术,对宋词的风格进行辅助性分析。具体来说本文主要讨论以下几个方面的问题:1.对诗词风格的计算机辅助分析进行了总结和分类,介绍了主要的几种使用方法的思想和大体步骤。并在此基础上简单的分析了这几种方法的差异及优劣。2.建立和完善宋词语料库。按照格律、风格、情感分析等的需要将宋词细分为子句,并对子句字串进行统计,利用词频、互信息和共现度等参数来抽取结合强度大的字串。在此基础上对语料库中的宋词作品进行了词语切分,同时对语料库中的部分词语进行了格律和词性标注。3.提出了适合宋词风格表示的宋词文档表示模型。根据宋词风格表现整体性的特点,本文优化了数据挖掘中的发现关联规则的方法,寻找宋词风格分类中所需要的频繁关键词共现集合,借此来更多地保留风格评判中所需要的分类信息。同时结合知网中使用到的义原,将宋词文档中的词语和频繁关键词共现映射到概念级,用部分语义来表示词语集合。随后,提出了基于概念和频繁关键词共现的诗词风格表示模型,并用该模型来表示一篇宋词文档。4.将宋词的风格分类转化成文本分类问题,运用文本分类的算法对宋词的风格进行评判。文中分别比较了不同分类算法的差异,从实际情况出发,选择了一种适合宋词风格分类的分类算法,优化了算法中的各项参数,最后在此基础上实现了宋词风格类型的评判。实验表明,本文建立的诗词风格表示模型可以很好地应用于诗词风格的分类,并有助于不同风格诗歌的计算机生成。
论文目录
相关论文文献
标签:计算诗学论文; 文本分类方法论文; 关联规则发现论文; 宋词风格表示模型论文;