面向分布式文本知识管理的中文分词与文本分类研究

论文摘要

我们正处于一个知识经济的时代,知识正继传统的土地、自然资源、资本和劳动力之后成为推动社会进步与发展的重要力量。知识经济时代在客观上要求有与之相适应的管理模式和理论及有效的技术手段。基于这个背景,本论文着重研究和探讨了文本知识管理中基础性的中文分词技术以及文本分类技术,并提出分布式知识管理系统的架构等。具体有以下几个方面:（1）提出了一种自适应分词算法。中文分词的难点在于处理歧义和识别未登录词,传统字典的匹配算法很大程度上是依靠字典的代表性而无法有效地识别新词,特别是对于各种行业领域的知识管理。本论文基于“2-gram”统计模型而实现一种能很好适应语料信息的分词算法,且时间和精度都能满足文本知识管理系统的应用需要。利用“分而治之”的思想来处理句长和词长的情况,用局部概率与全局概率相结合来识别生词和消歧,取得了很好的效果,从而使本论文提出的算法能够自动适应行业领域的知识管理。（2）提出了一种新的基于降维近似支持向量机的分类算法PSVM。近似支持向量机与标准支持向量机的主要区别在于它们所对应的优化问题的约束条件不同。即支持向量机是将问题归结为线性不等式约束二次规划问题,而近似支持向量机是将问题归结成仅含线性等式约束的二次规划问题。从理论上证明了该算法的时间复杂度和空间复杂度比传统的SVM算法均有降低,在此基础上提出了新的学习算法。实验表明,提出的新算法与主要的分类算法相比有较好的性能。尽管较之标准SVM算法的精度有所下降,但训练的时间比标准SVM算法要快,可以满足文本知识管理系统对训练时间敏感和需要处理大量文本的苛刻环境要求,从而具备较大的实用价值。（3）提出了一种基于本体的层次文本分类算法。通常讨论的分类问题是单层分类,而层次分类是指多层类别关系下的分类问题。实际应用的文本知识管理系统通常是面向特定的行业和领域,并且具备一定的模糊性而存在多种分类的特性。用户对于知识的关联性及多概念粒度的分类有较高需求,这就需要采用更好的多层信息组织方式。针对文本知识管理系统中常见的多层类别关系下的分类问题,提出了一种基于本体的层次文本分类算法,该方法利用知识管理系统的知识本体和受控关键词表,并基于概念之间的相似度来实现文本的精确分类、查询和检索。而且,该方法同样也适用于单层分类。（4）提出了一种分布式文本知识管理系统模型。为了适应现有分散性组织的发展模式,使有效的分布式文本知识管理成为知识管理的发展趋势之一。本论文提出的分布式文本知识管理系统模型是将Super-P2P技术应用于文本知识管理,以解决集中式文本知识管理所遇到的问题,并对模型提供的知识服务进行了研究和论述。在以上工作的基础上,在上海“浦东科技发展基金”和宝信软件的支持下,我们实现了一个基于Super-P2P、而集成工作流驱动的文本知识管理系统eKnow。本论文总结了eKnow的设计思想、系统框架和技术路线。该系统已经应用于多个案例,取得了较大的经济效益。

论文目录

摘要

ABSTRACT

1 绪论

1.1 论文研究的背景

1.2 论文研究的意义

1.3 文本知识管理系统常用的模型及研究进展

1.3.1 经典布尔模型（Classical Boolean Model）

1.3.2 向量空间模型（Vector Space Model）

1.3.3 扩展布尔模型（Extended Boolean model）

1.3.4 概率模型（ Probabilistic Model）

1.3.5 统计语言模型（Statistical Language Modeling）

1.4 中文分词及国内外研究进展

1.4.1 中文分词的难点

1.4.2 基于词典匹配的分词法

1.4.3 基于语料统计的统计分词法

1.4.4 规则和统计结合的方法

1.4.5 语义分词法

1.5 文本分类模型及国内外研究进展

1.5.1 k 最近邻模型

1.5.2 支持向量机模型

1.5.3 朴素贝叶斯分类器模型

1.5.4 决策树模型

1.5.5 神经网络模型

1.5.6 单层文本分类模型的小结和评估

1.5.7 层次文本分类模型

1.6 本论文研究的内容

2 自适应中文分词算法研究

2.1 文本知识管理系统对中文分词的要求

2.1.1 准确性

2.1.2 高效性

2.1.3 适用性

2.2 中文分词方法的理论基础

2.2.1 字典匹配中文分词模型

2.2.2 互信息原理

2.2.3 n 元（N-gram）统计模型原理

2.2.4 N-gram 方法影响分词性能的简单分析

2.2.5 分词精度影响检索性能的分析

2.3 SAWSA 自适应中文分词算法

2.3.1 算法的基本流程图

2.3.2 算法的预处理方法

2.3.3 子句2-gram 分词算法

2.3.4 算法的关键问题

2.3.5 算法的后处理规则

2.4 SAWSA 的实验与分析

2.4.1 测试的分词结果举例

2.4.2 算法的分词正确率

2.4.3 算法的适应性测试

2.4.4 不同最大句长和词长对分词算法的影响

2.4.5 基于SAWSA 的文本分类实验

3 一种降维的近似支持向量机分类算法

3.1 理论基础

3.1.1 文本分类问题的描述

3.1.2 单标号文本分类与多标号文本分类

3.1.3 类别中心分类与文本中心分类

3.1.4 分类模型的评估

3.1.5 评估指标

3.1.6 SVM 分类原理

3.2 近似支持向量机

3.3 基于降维的近似支持向量机学习算法

3.3.1 等式约束问题降维的K-T 条件

3.3.2 线性等式约束的二次规划问题

3.3.3 基于降维的近似支持向量机学习算法

3.4 降维近似支持向量机的文本分类实验

3.4.1 实验的文本特征构建方法选择

3.4.2 实验的文本特征选择方法

3.4.3 实验环境

3.4.4 实验结果分析

4 基于本体的层次文本分类算法

4.1 本体论及其研究现状

4.1.1 本体的定义及相关概念

4.1.2 本体的描述语言

4.1.3 描述逻辑

4.1.4 本体的构建方法

4.1.5 本体的开发工具

4.1.6 本体的应用

4.2 层次文本分类及其方法

4.2.1 层次文本分类概念及其与单层文本分类的比较

4.2.2 层次文本分类方法概述

4.2.3 Shrinkage 层次文本分类算法

4.3 基于本体的层次文本分类算法

4.3.1 知识本体中概念间的相似度计算

4.3.2 算法描述

4.3.3 算法中构建本体候选特征词的选择方法

4.4 基于本体的层次文本分类算法实验

4.4.1 实验环境

4.4.2 实验中的本体概念选择

4.4.3 顶层文本分类实验结果及分析

4.4.4 层次文本分类实验结果及分析

5 分布式文本知识管理系统EKNOW

5.1 文本知识管理系统EKNOW

5.1.1 系统框架

5.1.2 技术路线

5.1.3 全覆盖的文本知识管理系统

5.2 P2P 网络模型分析

5.2.1 纯分散式P2P 网络

5.2.2 混合P2P 网络

5.2.3 Super-P2P 网络

5.3 基于SUPER-P2P 结构的分布式文本知识管理模型

5.3.1 Super-P2P 分布式文本知识管理系统结构

5.3.2 Super-P2P 分布式知识管理系统的文本知识俘获机制

6 总结与展望

6.1 论文的主要贡献与创新

6.2 下一步的研究工作

致谢

参考文献

附录

A. 作者攻读博士学位期间发表或录用的论文

B. 作者在攻读博士学位期间主持和参与的科研项目

面向分布式文本知识管理的中文分词与文本分类研究

论文摘要

论文目录

相关论文文献

猜你喜欢