范例推理与互联网文本信息处理研究

范例推理与互联网文本信息处理研究

论文摘要

近年来,范例推理(Case-Based Reasoning,CBR)的基础研究及系统实现正受到人们的普遍关注,是当今人工智能研究的前沿课题。CBR不仅是关于人类认知的心理学理论,而且将成为智能计算机系统技术中新的基石之一。CBR技术在知识不良定义和专家知识不全的领域中应用效果很好,但CBR系统中仍存在着知识获取和维护瓶颈问题。另一方面,数据挖掘(Data Mining,DM)技术是从大量数据中发现知识,因此是解决知识获取和维护瓶颈问题的有效途径之一。将范例推理研究与数据挖掘技术相结合,是具有重要意义的研究方向。 随着互联网的普及,Web文本资源已呈现几何级数的增长,有效地获取蕴藏在Web文本资源中的大量未知的、有用的信息,正成为国内外学者关注的研究热点。其中Web文本的预处理和文本理解又是互联网文本信息处理基础性工作,该工作必将有力地推动计算机对大规模Web文本资源的自动处理。 随着人工智能技术的不断成熟,专家系统技术正被研究者引入到互联网文本信息处理领域中,为理解互联网文本信息开辟了新的研究方向。 本论文围绕以上几个方面,进行了深入的研究。论文的主要内容为: 首先,将数据挖掘技术引入到范例推理系统中,解决系统中的知识获取和维护瓶颈问题。主要的工作有:一是结合数据挖掘中的聚类算法与脚标数据的特点,给出了一种有效的基于能力的范例库自动建立新方法;二是结合基于选择的CLARA聚类方法和NCL聚类算法的优点,给出了一种无监督下对范例进行准确归类聚类学习算法,该方法能大大地提高范例提取的速度和质量;三是给出了基于聚类方法的范例删除和范例增加维护策略。以上这些都将有利于增强CBR系统解决问题的有效性和实用性。此外还针对传统数据抽查方法很难保证数据抽查有效性的缺点,结合离群数据挖掘的方法,给出了一种基于离群数据挖掘的数据抽查新方法。该方法能克服传统数据抽查方法的缺陷,从而保证了数据抽查的有效性和全面性。 其次,开展了对互联网文本信息自动处理中的主题词自动抽取和文档自动摘要等基础性工作的研究。具体包括:一是在对现有主题词抽取方法深入研究的基础上,提出了一种基于词共现图的文档主题词自动抽取新方法,该方法以词频统

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 范例推理
  • 1.1.1 CBR的概述
  • 1.2 CBR的推理方法学
  • 1.2.1 CBR技术及应用
  • 1.2.2 CBR的研究现状
  • 1.3 互联网文本信息处理
  • 1.3.1 数据挖掘与文本挖掘
  • 1.3.2 文本挖掘的应用与产品
  • 1.3.3 文本主题词抽取和文本自动摘要的研究现状
  • 1.4 本文工作内容与组织结构
  • 1.4.1 本文工作内容
  • 1.4.2 本文组织结构
  • 第二章 聚类方法在范例库建立和范例提取中的研究
  • 2.1 范例库建立和范例提取的研究现状
  • 2.1.1 范例库建立的研究现状
  • 2.1.1.1 问题提出
  • 2.1.1.2 研究现状及相关工作
  • 2.1.2 范例库索引和范例提取研究现状
  • 2.1.2.1 问题提出
  • 2.1.2.2 研究现状及相关工作
  • 2.2 范例相似度与聚类分析
  • 2.2.1 范例间相似度的度量
  • 2.2.2 聚类方法
  • CLARA聚类算法'>2.3 NCLCLARA聚类算法
  • 2.3.1 NCL(New Clustering Learning)
  • 2.3.2 CLARA(Clustering LARge Applications)
  • CLARA的算法模型'>2.3.3 NCLCLARA的算法模型
  • CLARA算法在数据抽查中的应用'>2.3.4 NCLCLARA算法在数据抽查中的应用
  • 2.4 范例库自动建立的研究
  • 2.4.1 基本概念
  • 2.4.2 范例自动发现过程
  • 2.4.3 范例库自动生成的主要算法和实现
  • 2.4.4 范例库生成
  • 2.4.5 实验结果与分析
  • 2.4.5.1 实验准备
  • 2.4.5.2 实验结果和讨论
  • 2.5 范例索引和范例提取技术的研究
  • 2.5.1 范例索引
  • 2.5.2 范例提取
  • 2.5.3 实验结果与分析
  • 2.6 本章小结
  • 第三章 范例库维护与范例表示的研究
  • 3.1 范例库维护的研究
  • 3.1.1 问题提出
  • 3.1.2 研究现状及相关工作
  • 3.1.3 范例分类
  • 3.1.4 聚类方法在范例库维护中的应用
  • 3.1.4.1 范例增加主要思想及其算法
  • 3.1.4.2 范例删除主要思想及其算法
  • 3.1.4.3 实验结果及分析
  • 3.2 面向对象的范例表示研究
  • 3.2.1 范例的面向对象表示
  • 3.2.1.1 范例类的形式化定义
  • 3.2.1.2 范例对象的形式化定义
  • 3.2.2 范例间相似性计算
  • 3.2.2.1 类内相似性计算
  • 3.2.2.2 类间相似性计算
  • 3.3 本章小结
  • 第四章 互联网文本信息处理中主题词自动抽取与自动摘要研究
  • 4.1 互联网文本信息处理技术研究现状
  • 4.1.1 互联网文本信息的特点
  • 4.1.2 网页中文本信息的抽取方法
  • 4.1.3 文本主题词的抽取研究现状
  • 4.1.4 文档自动摘要的研究现状
  • 4.2 词共现图与相关工作
  • 4.2.1 词共现模型
  • 4.2.2 主题的确定
  • 4.2.3 词共现图的建立
  • 4.3 基于词共现图的文档主题词自动抽取
  • 4.3.1 文档主题词的抽取
  • 4.3.2 基于词共现图的文档主题词抽取流程及算法
  • 4.3.3 实验结果与分析
  • 4.4 基于词共现图的文档自动摘要方法
  • 4.4.1 基于词共现图的文档自动摘要原理
  • 4.4.2 摘要生成与摘要长度自动确定
  • 4.4.3 实验结果与分析
  • 4.5 本章小结
  • 第五章 范例推理在互联网文本信息处理中应用
  • 5.1 基于CBR的文本自动分类研究
  • 5.1.1 文本自动分类的研究现状
  • 5.1.2 基于CBR的文本自动分类系统的设计与实现
  • 5.1.3 实验结果与分析
  • 5.2 基于CBR的EMAIL自动分类研究
  • 5.2.1 Email自动分类的研究现状
  • 5.2.2 潜在语义分析方法
  • 5.2.3 基于CBR的Email自动分类
  • 5.2.4 实验结果与分析
  • 5.3 本章小结
  • 第六章 应用系统:互联网竞争情报监测系统CISNET
  • 6.1 互联网竞争情报监测的意义和研究现状
  • 6.1.1 互联网竞争情报监测的意义
  • 6.1.2 互联网竞争情报监测的研究现状
  • 6.2 CISNET:互联网竞争情报智能监测系统
  • 6.2.1 系统功能
  • 6.2.2 系统体系结构
  • 6.2.3 系统的主要特点
  • 6.2.4 系统在信息化社会中的应用
  • 6.2.5 与其他相关工作比较
  • 6.3 与本文相关的主要关键技术
  • 6.3.1 主题词自动抽取技术及应用
  • 6.3.2 文档自动摘要技术及应用
  • 6.3.3 一个主题词自动抽取和文档自动摘要的实例
  • 6.3.4 文本自动分类技术及应用
  • 6.4 其它相关应用研究
  • 6.4.1 用户兴趣模型
  • 6.4.2 关联搜索
  • 6.4.3 个性化推荐系统
  • 6.5 本章小结
  • 第七章 总结与进一步的工作
  • 7.1 本文主要结论
  • 7.2 主要创新点
  • 7.3 进一步的研究方向
  • 参考文献
  • 致谢
  • 攻读博士期间发表论文
  • 攻读博士学位期间参加的科研项目
  • 相关论文文献

    • [1].如何让“互联网+”农业的现实不再骨感[J]. 中国商界 2016(07)
    • [2].中国邮政“互联网+”战略探秘[J]. 中国邮政 2015(10)
    • [3].顺应潮流 抢占“互联网+”制高点[J]. 中国邮政 2015(10)
    • [4].“互联网+”驱动邮政变革的思路与对策[J]. 中国邮政 2015(10)
    • [5].中国经济新动力:互联网+零售[J]. 中国商界 2015(08)
    • [6].互联网+改变低效[J]. 中国商界 2015(09)
    • [7].互联网+零售新机遇[J]. 中国商界 2015(09)
    • [8].打造互联网零售的高速公路[J]. 中国商界 2015(09)
    • [9].互联网与实体经济奔流相汇[J]. 中国商界 2015(09)
    • [10].互联网+零售=互联网+品牌[J]. 中国商界 2015(09)
    • [11].互联网+的人力资源管理[J]. 中国商界 2015(07)
    • [12].中国互联网繁荣背后的隐忧[J]. 小康 2014(12)
    • [13].传统行业基于互联网创新的一些思考[J]. 中国商界 2015(Z1)
    • [14].“互联网+”便利店的发展方向[J]. 中国商界 2015(06)
    • [15].回归商业本质是最大的互联网思维[J]. 中国商界 2015(Z1)
    • [16].给互联网金融风险提个醒[J]. 消费者报道 2014(03)
    • [17].移动互联网对国际经济贸易产生的影响[J]. 科技资讯 2019(31)
    • [18].互联网20年变迁记[J]. 中国科技奖励 2019(05)
    • [19].基于互联网+的智慧城市解决方案研究[J]. 科技风 2019(35)
    • [20].互联网订餐食品安全监管模式[J]. 食品与机械 2019(11)
    • [21].试谈互联网企业的管理及发展模式借鉴[J]. 企业科技与发展 2019(11)
    • [22].区块链和能源互联网:天作之合[J]. 中外能源 2019(12)
    • [23].试论工业互联网与消费互联网的本质区别[J]. 门窗 2019(12)
    • [24].工业互联网[J]. 机电工程技术 2019(11)
    • [25].共享经济在互联网+时代下的发展现状及对策研究[J]. 四川建材 2019(12)
    • [26].互联网大数据时代下教学转变探析[J]. 湖北农机化 2019(23)
    • [27].试论互联网对财务会计的影响[J]. 福建茶叶 2019(10)
    • [28].基于互联网+模式的医疗服务“最多跑一次”改革实践[J]. 中医药管理杂志 2019(23)
    • [29].关于推动互联网+药品监管的思考[J]. 中国医药工业杂志 2019(11)
    • [30].医院互联网+党建平台构建中的思考[J]. 学理论 2019(12)

    标签:;  ;  ;  ;  ;  ;  

    范例推理与互联网文本信息处理研究
    下载Doc文档

    猜你喜欢