论文摘要
伴随着blog注册数量的日益增多,blog以极快的速度融入到人们的社会生活中,并随之带来一系列新的应用,与传统网页相比,blog自身有着独特的信息特点,如何对blog中的信息进行针对性的检索和更深层次的挖掘利用,已经成为当前互联网应用研究中的热点问题。本文旨在提取blog的主题特征,即根据blog页面数据预测blog感兴趣的信息所属的主题。Blog主题标注可以归结到blog主题分类问题,围绕分类中的两个关键问题,即分类目录的构建和分类算法的实现,文本主要的研究工作包括:1)本文提出了基于K-Means聚类的Blog主题层次目录构建算法。本文首先考察了多个blog空间和网站分类目录的层次结构,研究发现,这些目录层次都存在一定的不足,不能符合用户的需求。针对上述问题,本文提出了基于K-Means聚类的Blog主题层次目录构建算法,该算法能够利用腾讯新闻网站的样本集构建Blog主题层次目录以及相应的语料库,有效地解决了分类器训练前主题类别的确定和训练集的搜集问题。2)本文提出了基于多分类器的blog主题分类算法。Blog的主题特征是通过blog在一段时间内所发表的日志内容来体现的,要提取blog感兴趣的主题信息必须先对该日志集合进行主题分类。Blog日志不规范性和随意性的特点会干扰分类器对日志主题的确定,针对这个问题,本文引入了多分类器联合的方法。实验证明,多分类器可以有效地识别出主题不明确的日志样本,本文对这些样本做单独的处理,为其确定一个较为合理的主题。基于日志主题分类的结果,本文提出了基于多分类器的blog主题分类算法,该算法能快速提取blog的主题特征,本文通过实验验证了该算法的有效性。基于上述研究成果,本文设计并实现了一个层次式的blog主题标注原型系统,包括数据的获取、解析、算法实现等模块,为进行相关的实验和研究提供了一个基础平台。
论文目录
摘要Abstract第1章 绪论1.1 研究背景和意义1.1.1 研究背景1.1.2 研究意义1.2 国内外相关技术研究现状1.2.1 文本分类的研究现状1.2.2 Blog 分类技术的研究现状1.2.3 Blog 分类应用的研究现状1.3 研究问题的定义1.4 本文的结构安排第2章 Blog 相关基础理论和技术2.1 引言2.2 Blog 的文本表示与特征选择2.2.1 Blog 的信息特点2.2.2 文本表示方法2.2.3 特征选择2.2.4 特征权重的表示方法2.3 文本分类技术2.3.1 文本分类算法2.3.2 分类结果的评价标准2.4 本章小结第3章 基于 K-Means 聚类的 Blog 主题层次目录构 建算法3.1 引言3.2 Blog 主题层次目录的定义3.2.1 定义3.2.2 构建新的层次目录的必要性3.3 Blog 主题层次目录构建算法3.3.1 手工构建 Blog 主题层次目录3.3.2 基于搜狐语料库构建Blog 主题层次目录3.3.3 基于新闻网站构建Blog 主题层次目录3.4 实验与分析3.4.1 数据描述3.4.2 实验分析3.5 本章小结第4章 基于多分类器的Blog 主题分类算法4.1 引言4.2 多分类器联合4.2.1 候选类别的确定4.2.2 仲裁规则4.2.3 分类器权重的确定方法4.2.4 分类结果的后处理4.3 Blog 主题分类算法4.4 实验与分析4.4.1 数据描述4.4.2 实验分析4.5 本章小结第5章 层次式Blog 主题标注系统5.1 引言5.2 系统的功能与目标5.3 系统总体设计5.4 系统详细设计5.4.1 爬虫模块5.4.2 解析模块5.4.3 数据库模块5.4.4 数据预处理模块5.4.5 Blog 主题层次目录构建模块5.4.6 Blog 主题标注模块5.4.7 Blog 主题特征提取模块5.5 Blog 主题标注系统演示5.6 本章小结结论参考文献致谢个人简历
相关论文文献
标签:主题层次目录论文; 主题分类论文; 主题特征提取论文;