论文摘要
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据库中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是一个涉及面很广的交叉学科,包括机器学习、数理统计、人工智能、神经网络、数据库、模式识别、粗糙集和模糊数学等相关技术。本文基于数据挖掘的一些相关技术,做了如下几个方面的工作:(1)针对标准互信息和tf.idf特征权重公式的缺点提出了改进方法,仿真实验表明,改进的方法明显提高了宏观准确率、宏观召回率和宏观F1值;(2)针对标准tf.idf方法估算特征权重的盲目性,提出了基于实数域粗糙集理论的特征频率重要度加权方法,仿真实验表明,这种加权方法改善了样本空间的分布状态,使同类的样本更加紧凑,不同类样本更加松散,仿真实验表明,明显提高了文本分类的效果;(3)针对文本分类存在的高维特征空间和高度特征冗余,提出了一种基于互信息和信息熵对的特征选择方法,仿真实验表明,基于该方法的文本分类效果比MI方法和CHI方法都更有效,利用该方法进行特征选择的分类效果接近代表分类水平的支持向量机;(4)针对使用计算机为新测序的生物序列进行功能注释的效果较差的实际,基于GO数据库和BLAST程序,提出了一种基于可变精度粗糙集理论为新的生物序列进行功能注释的方法,仿真实验表明,提出的方法具有较高的准确率、召回率和调和均值;(5)针对目前人类种群进化研究方法的局限性,提出了基于Y染色体SNP基因型频率数据建立人类种群进化关系的新方法,仿真实验表明,本文方法支持“走出非洲”假说,为人类种群进化研究提供了一个新思路。
论文目录
内容提要第1章 绪论1.1 数据挖掘技术简介1.1.1 数据挖掘的背景介绍1.1.2 数据挖掘的研究现状1.1.3 数据挖掘的相关知识1.1.4 数据挖掘的应用和研究方向1.2 数据挖掘技术在文本分类中的应用1.2.1 数据挖掘技术在文本分类中的应用1.2.2 文本分类的应用和展望1.3 数据挖掘技术在生物信息学中的应用1.3.1 生物信息学的定义和研究范围1.3.2 生物信息学中的数据挖掘过程1.3.3 数据挖掘在生物信息学中的应用和展望1.4 文本挖掘和生物信息学的关系1.5 本文工作第2章 基于改进互信息和特征权重的文本分类方法2.1 背景介绍2.2 特征选择前的低频特征预处理工作2.3 改进互信息的特征选择方法2.3.1 互信息方法2.3.2 互信息公式的改进2.4 改进的特征权重的估计方法2.4.1 tf.idf方法2.4.2 改进的tf.idf方法2.5 模拟实验2.5.1 评价方法2.5.2 实验结果2.6 本章小结第3章 基于互信息和信息熵对的特征选择方法3.1 背景介绍3.2 特征选择方法3.2.1 互信息方法3.2.2 信息熵和信息熵对3.2.3 基于互信息和信息熵对的特征选择方法3.3 仿真实验3.3.1 数据集3.3.2 评价方法3.3.3 实验结果3.4 本章小结第4章 基于实数域粗糙集特征加权的文本分类方法4.1 引言4.2 基于实数域粗糙集理论的几个定义4.3 基于实数域粗糙集理论的改进特征加权公式4.3.1 tf.idf方法4.3.2 改进的tf.idf方法4.4 实验结果和分析4.5 本章小结第5章 基于可变精度粗糙集的基因功能预测方法5.1 引言5.2 GO术语属性的离散化5.2.1 定义和GO术语的属性5.2.2 GO术语属性的离散化方法5.3 GO术语的决策规则提取方法5.3.1 可变精度粗糙集的相关定义5.3.2 基于可变精度粗糙集的规则提取算法5.4 规则提取实例5.4.1 统计术语所在单元及所在单元的相关属性5.4.2 GO术语属性的离散化5.4.3 GO术语决策规则的提取5.5 实验结果与分析5.5.1 实验结果评价方法5.5.2 实验数据集5.5.3 实验结果和分析5.6 本章小结第6章 基于Y染色体SNP基因型频率数据的种群进化研究6.1 引言6.1.1 背景介绍6.1.2 相关工作6.2 单核苷酸多态性理论和国际单体型图计划介绍6.2.1 单核苷酸多态性基础理论6.2.2 国际人类基因组单体型图计划介绍6.3 系统进化树的构建理论6.3.1 人类起源学说6.3.2 系统进化树6.4 基于Y染色体SNP基因型频率数据的种群进化树6.4.1 研究对象和数据来源6.4.2 采用的研究方法6.5 模拟实验6.6 本章小结第7章 结论和展望参考文献攻读博士学位期间发表的论文及参加的科研项目学位论文摘要(中文)学位论文摘要(英文)致谢
相关论文文献
标签:数据挖掘论文; 文本分类论文; 生物信息学论文; 特征选择论文; 特征权重论文; 粗糙集论文; 基因功能注释论文; 种群进化论文;