机器学习算法在文本分析中的研究

论文摘要

随着互联网信息资源的指数增长,如何实现海量文本数据的自动分析已成为日益紧迫的研究课题。近年来,作为文本自动分析的重要手段,文本聚类及热点信息发现逐渐受到研究者的重视。对互联网信息的聚类处理使人们可以从总体上了解信息主题的分布,并根据特定兴趣选择不同主题的文本进行浏览;对互联网热点信息的自动发现使用户更容易了解不同类别中最受关注的焦点。本文关注于文本聚类算法和热点信息发现算法的改进和高效实现,以期在海量数据和工程化环境中有效推动文本自动分析技术的实用化。首先,针对K-Means算法的聚类结果严重依赖于初始中心点的特性,本文在K-Means算法中引入了具有优化近似因子的delta近似K-Center算法,构造了改进的聚类算法KWOC（K-Means With Optimized Centers）,用以实现更有效的初始中心点选择。实验表明KWOC可显著提高最终聚类结果的鲁棒性。在KWOC的具体实现中,本文创新性地设计了针对性较强的事务性文件系统,实现了K-Center中间计算结果的高效缓存,在文件层面实现K-Center与K-Means的计算结果共享。该方案显著降低KWOC算法的时间开销。其次,为了有效挖掘海量Web数据中的热点信息,设计了一种新颖的Web热点信息发现算法。该算法以分阶段的串频变化量统计矩阵为基础,结合串频变化的历史波动,得出有效的热点信息串的评价指标,并根据由该指标选中的热点信息串最终完成热点文章的甄选工作。该算法的具体实现同样利用了有针对性的事务性文件系统,因而具有较高的时间效率。最后,论文给出了针对上述聚类及热点信息发现算法的事务性文件系统的设计方案及实现方法,该事务性文件系统基于一致性哈希理论,以高速的散列文件为基础高效地实现了算法运行中计算结果共享,有效地把计算依赖转化为事务依赖,在事务重建理论框架下为算法的可靠性提供了有力保障。实验表明,本文提出聚类算法、热点算法及其系统方案实现具有良好的性能和效率,可以适应于实际工程环境下的海量数据应用。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 项目背景及研究意义

1.1.1 项目背景

1.1.2 研究意义

1.1.3 研究的主要问题及国内外现状

1.2 本文的主要内容及章节安排

第二章算法及相关概念综述

2.1 聚类算法研究

2.1.1 聚类算法

2.1.2 聚类过程

2.1.3 评估标准

2.2 热点信息发现研究

2.2.1 热点信息发现概念及特征

2.2.2 热点对技术的挑战

2.3 针对算法运行过程的事务性文件系统研究

2.3.1 事务ACID 特性

2.3.2 计算依赖与事务依赖

2.3.3 原子操作模型及其依赖触发

2.3.4 持久性保存点及事务恢复

2.3.5 并发控制及其注意事项

2.3.6 系统可靠性及其相关

2.3.7 一致性哈希（Consistent Hash）

2.4 本章小结

第三章优化初始化中心选取的聚类算法

3.1 聚类算法选取及改进

3.1.1 适用环境及聚类目标

3.1.2 算法选取

3.1.3 算法优化

3.2 聚类算法运行环境

3.2.1 系统开发及运行环境

3.2.2 系统依赖项

3.3 聚类实现预处理

3.3.1 语料格式预处理

3.3.2 分词模块及系统构建

3.4 聚类过程及聚类结果处理

3.4.1 词典空间建立

3.4.2 随机化语料存取

3.4.3 聚类过程的系统实现

3.4.4 系统聚类结果输出

3.5 本章小结

第四章基于串频统计的热点信息发现算法

4.1 热点信息发现概述

4.1.1 热点信息发现的任务及意义

4.1.2 热点信息发现的运行环境

4.2 热点信息发现的核心算法

4.2.1 热点信息发现的基本思想

4.2.2 热点信息发现的解决方案关键点

4.3 热点信息发现的核心算法及实现过程

4.3.1 准备工作及预处理

4.3.2 热点算法基础矩阵

4.3.3 基于词频的热点算法设计

4.4 本章小结

第五章针对聚类及热点算法运行过程的事务性文件处理系统

5.1 事务性文件系统概述

5.1.1 TPFS 存在的意义

5.1.2 TPFS 内容寻址

5.1.3 TPFS 的主要构成

5.2 事务性调度模块

5.2.1 原子操作和扁平事务

5.2.2 事务性调度模块的策略及实现

5.3 逻辑封装模块及其实现

5.3.1 逻辑封装模块的作用

5.3.2 HASH 文件逻辑结构

5.3.3 HASH 文件逻辑操作

5.4 容错模块的作用及实现

5.4.1 容错模块的作用

5.4.2 容错模块的实现

5.5 本章小结

第六章结束语

参考文献

发表论文和参加科研情况说明

致谢

机器学习算法在文本分析中的研究

论文摘要

论文目录

相关论文文献

猜你喜欢