论文摘要
传统决策树算法通过计算属性的信息熵来选择属性,信息熵大的属性被优先选取构造决策树。在计算信息熵时,它仅考虑语法层面上字、词的简单匹配,没有考虑数据的语义信息,缺乏对其所包含语义信息的理解,这就导致算法缺乏一定的智能性,致使计算工作量大、复杂性强,而且分类质量不高。特别是在大数据库的应用上,传统的决策树算法更加面临大数据量计算的挑战。本文在分析研究决策树挖掘算法及知网、概念树、语义相似度等相关知识的基础上,针对传统决策树挖掘算法的不足,提出了基于语义的决策树挖掘思想,实现了连续属性语义化和名词型属性语义化的方法,建立了基于语义的决策树挖掘模型。基于语义的决策树挖掘模型较好的利用了训练数据中属性的语义信息,满足用户基于语义的决策树挖掘的需求,实现了一定程度的智能挖掘。实验表明基于语义的决策树挖掘模型能够解决传统决策树挖掘缺乏语义信息的问题、提高数据挖掘系统的知识表示能力,较之传统的决策树挖掘具有更高的效率和预测准确率。
论文目录
摘要Abstract第一章 前言1.1 问题的提出1.2 研究现状1.3 研究目的和研究内容1.3.1 研究目的1.3.2 研究内容1.4 研究意义1.5 本文的章节安排第二章 相关知识及技术2.1 决策树中连续属性的处理2.1.1 决策树中连续属性问题2.1.2 连续属性离散化方法2.2 语义2.2.1 语义问题2.2.2 语义分析2.3 知网(HowNet)2.3.1 知网(HowNet)介绍2.3.2 语义相似度计算2.4 概念树2.4.1 概念及概念树2.4.2 概念树应用于数据抽象2.5 本章小结第三章 基于语义的决策树挖掘的关键技术研究3.1 连续属性语义化3.1.1 连续属性的可语义化问题3.1.2 连续属性语义化(CAS)方法3.1.3 可行性实验验证3.1.4 算法讨论3.2 名词型属性语义化3.2.1 名词间的语义相关性3.2.2 名词型属性语义化(NAS)方法3.2.3 可行性实验验证3.2.4 算法讨论3.3 决策树相应算法的调整3.4 本章小节第四章 基于语义的决策树挖掘模型框架4.1 需求描述4.2 设计目标4.3 模型框架4.3.1 系统框架模型4.3.2 系统流程4.4 实验4.4.1 实验环境4.4.2 性能评测4.5 本章小结结论1.总结2.理论创新3.存在的问题参考文献攻读硕士学位期间取得的学术成果致谢
相关论文文献
标签:数据挖掘论文; 决策树论文; 概念树论文; 语义论文; 智能论文;