现代信息检索中的文本分类及图像恢复研究

论文摘要

信息化的飞速发展使各种信息呈现爆炸式增长，这给人们的工作、学习和生活提供了极大便利，但淹没于大量无用、重复信息之中的有用信息很难通过人工的方法被全面准确地提取出来，人们陷于信息提取的泥潭中，快速有效的信息检索技术成为了唯一的解决方案。信息检索主要包含两个部分：按照科学的体系结构对信息进行归类和获取用户真实意图，反馈给用户所需的信息。前者是提高效率的关键，本文的研究则集中于信息归类，围绕中文文本分词、特征选择和分类方法以及图像检索中的模糊图像恢复等关键技术展开探索。研究过程使用了理论分析和计算机实验验证两种主要方法。以理论分析确定实验目的，指导实验方法；以实验数据支持理论分析，推动更深入的理论分析。本文首先介绍了信息检索的发展现状，结合本论文的主要研究内容论述了信息检索中的关键技术，对本论文的内容安排和主要创新作了说明。而后，从总体上介绍了自动文本分类系统的组成结构和功能，为后面的研究打下了基础。本论文所作的创新主要包括以下几个部分：现有机械分词方法准确率偏低，对后续特征选择和分类造成了破坏，影响了文本分类精度；非机械分词法虽然有较好的分词精度，但是时间和／或空间复杂度较高，不易实现。针对上述问题，本文提出了一种对最大匹配法进行改进得到的预测最大匹配分词方法。预测最大匹配法通过对长词出现可能性和起始位置进行预测，使分词过程更符合长词优先准则。通过对新方法分词性能和时间复杂度的分析，证明了该方法以较小的复杂度增加为代价明显提高了分词准确性，接近全局最大匹配的性能。以词为特征表示中文文本时特征维数较高，需要剔除对分类贡献小的特征。现有特征选择方法基于词与词之间相互独立的假设，属于标量特征选择。实际上词与词之间存在很强的的相关性，本文提出了基于期望交叉熵的向量特征选择方法，兼顾了词与类别及词与词之间的相关性。本文还研究了使用K-L变换和奇异值分解特征生成的方法。实验证明在

论文目录

摘要

ABSTRACT

第一章绪论

1.1 引言

1.2 信息检索的研究现状及挑战

1.3 主要研究内容

1.3.1 中文自动分词

1.3.2 文本特征选择

1.3.3 文本训练和分类

1.3.4 图像检索中的模糊图像恢复

1.4 论文结构安排

参考文献

第二章自动文本分类系统

2.1 引言

2.2 文本的表示

2.2.1 文本特征

2.2.2 文本预处理

2.2.3 特征项权重

2.2.4 向量规范化

2.3 中文分词

2.3.1 歧义字段的定义及分类

2.3.2 分词方法

2.4 特征选择

2.5 分类器性能的评价标准

2.5.1 单类的情况

2.5.2 多类的情况

2.6 文本集

2.7 本章小结

参考文献

第三章文本预处理

3.1 引言

3.2 分词

3.2.1 评价分词的指标

3.2.2 分词词典的构造

3.2.2.1 首字哈希表

3.2.2.2 词索引表

3.2.2.3 词典正文

3.2.3 改进的最大匹配法

3.2.3.1 最大匹配法的主要缺点

3.2.3.2 全局最大匹配法

3.2.3.3 预测最大匹配法

3.2.4 分词方法的时间复杂度比较

3.2.4.1 精确的时间复杂度

3.2.4.2 估算的时间复杂度

3.3 分词方法比较的实验结果

3.3.1 分词精度

3.3.2 分类精度

3.4 本章小结

参考文献

第四章特征选择

4.1 引言

4.2 评价函数法

4.2.1 filter法和wrapper法

4.2.2 向量特征选择

4.3 特征表示

4.4 特征抽取

4.4.1 K-L变换

4.4.2 奇异值分解

4.5 特征选择方法比较的实验结果

4.6 本章小结

参考文献

第五章文本分类器

5.1 引言

5.2 分类算法

5.2.1 Naive Bayes法

5.2.2 K近邻算法（KNN）

5.2.3 Rocchio法

5.2.4 决策树/决策规则分类器

5.3 基于方差的文本分类方法

5.4 Rocchio法与支撑向量机相结合的分类器

5.4.1 支撑向量机

5.4.2 Rocchio法与 SVM的结合

5.5 分类方法比较的实验结果

5.6 本章小结

参考文献

第六章图像检索

6.1 引言

6.2 图像检索中的关键技术

6.2.1 预处理

6.2.2 图像数据描述模型

6.2.2.1 颜色

6.2.2.2 形状

6.2.2.3 纹理

6.2.3 特征索引结构

6.2.4 图像相似度度量

6.2.5 图像查询

6.3 模糊图像的预处理

6.3.1 图像恢复系统模型

6.3.2 算法原理

6.3.3 算法实现

6.3.4 仿真结果

6.4 本章小结

参考文献

第七章总结与展望

博士期间发表的论文

致谢

现代信息检索中的文本分类及图像恢复研究

论文摘要

论文目录

相关论文文献

猜你喜欢