Print

基于语义的决策树挖掘算法研究

论文摘要

传统决策树算法通过计算属性的信息熵来选择属性,信息熵大的属性被优先选取构造决策树。在计算信息熵时,它仅考虑语法层面上字、词的简单匹配,没有考虑数据的语义信息,缺乏对其所包含语义信息的理解,这就导致算法缺乏一定的智能性,致使计算工作量大、复杂性强,而且分类质量不高。特别是在大数据库的应用上,传统的决策树算法更加面临大数据量计算的挑战。本文在分析研究决策树挖掘算法及知网、概念树、语义相似度等相关知识的基础上,针对传统决策树挖掘算法的不足,提出了基于语义的决策树挖掘思想,实现了连续属性语义化和名词型属性语义化的方法,建立了基于语义的决策树挖掘模型。基于语义的决策树挖掘模型较好的利用了训练数据中属性的语义信息,满足用户基于语义的决策树挖掘的需求,实现了一定程度的智能挖掘。实验表明基于语义的决策树挖掘模型能够解决传统决策树挖掘缺乏语义信息的问题、提高数据挖掘系统的知识表示能力,较之传统的决策树挖掘具有更高的效率和预测准确率。

论文目录

  • 摘要
  • Abstract
  • 第一章 前言
  • 1.1 问题的提出
  • 1.2 研究现状
  • 1.3 研究目的和研究内容
  • 1.3.1 研究目的
  • 1.3.2 研究内容
  • 1.4 研究意义
  • 1.5 本文的章节安排
  • 第二章 相关知识及技术
  • 2.1 决策树中连续属性的处理
  • 2.1.1 决策树中连续属性问题
  • 2.1.2 连续属性离散化方法
  • 2.2 语义
  • 2.2.1 语义问题
  • 2.2.2 语义分析
  • 2.3 知网(HowNet)
  • 2.3.1 知网(HowNet)介绍
  • 2.3.2 语义相似度计算
  • 2.4 概念树
  • 2.4.1 概念及概念树
  • 2.4.2 概念树应用于数据抽象
  • 2.5 本章小结
  • 第三章 基于语义的决策树挖掘的关键技术研究
  • 3.1 连续属性语义化
  • 3.1.1 连续属性的可语义化问题
  • 3.1.2 连续属性语义化(CAS)方法
  • 3.1.3 可行性实验验证
  • 3.1.4 算法讨论
  • 3.2 名词型属性语义化
  • 3.2.1 名词间的语义相关性
  • 3.2.2 名词型属性语义化(NAS)方法
  • 3.2.3 可行性实验验证
  • 3.2.4 算法讨论
  • 3.3 决策树相应算法的调整
  • 3.4 本章小节
  • 第四章 基于语义的决策树挖掘模型框架
  • 4.1 需求描述
  • 4.2 设计目标
  • 4.3 模型框架
  • 4.3.1 系统框架模型
  • 4.3.2 系统流程
  • 4.4 实验
  • 4.4.1 实验环境
  • 4.4.2 性能评测
  • 4.5 本章小结
  • 结论
  • 1.总结
  • 2.理论创新
  • 3.存在的问题
  • 参考文献
  • 攻读硕士学位期间取得的学术成果
  • 致谢
  • 相关论文文献

    本文来源: https://www.lw50.cn/article/81fa92b446b2d5c49e344a85.html