论文摘要
数据挖掘意味着在一些事实或观察数据的集合中寻找隐藏模式的决策支持过程。数据挖掘也被称为知识发现。文本数据库分类是数据挖掘中的一个重要内容。电子病历也是一类文本数据集。对这些数据集进行数据挖掘及分类是非常有必要的。本研究中,我们研究了一种新的基于短语的特征提取算法。并把这种算法应用到中文真实病历的分类中,取得较好的分类效果。具体处理过程是,首先采集了医院内科真实中文病历200份。然后进行数据清洗过程,因为数据是来源于医院的真实数据,所以存在着不完整的、含有噪声的和不一致的数据。之后对数据进行量化工作,特征提取,在我们的实验中采用的是一种新的特征提取方法即基于短语的特征提取方法;我们将这200份含有4种病种的病历进行3种组合,然后通过算法将他们分别进行分类。其中所用到的短语匹配算法可以归纳为如下的步骤:1)获得数据库中每对文档的匹配短语集合。2)创建一个包括步骤1所有集合的集合。去除这个集合中的匹配短语。3)把每个文档表示为一个向量,并归一化。4)用SOM创建一个对应于这个向量集合的分类器。5)可视化分类结果,找出和每一类相关的特征短语。通过实验得到了较好的效果。数据挖掘技术能自动从病历数据集中提取出主要的特征,对病历进行分类能很好地帮助医务工作人员诊断疾病,并且总结出不同病种间有哪些以前从未发现的不同的表现特征。尽管在我们的实验中所用到的数据集是医院的病历,但是这里提出的分类方法如果应用到其它类型的文本数据集也是适用的。
论文目录
相关论文文献
- [1].“潦草病历”为何难绝?[J]. 晚霞 2015(12)
- [2].浅析病历及时归档的重要性[J]. 科技致富向导 2014(11)
- [3].使身心健康的蓝光观照法[J]. 新闻世界(健康生活) 2008(02)
- [4].住院病历使用中药注射剂合理性分析[J]. 临床合理用药杂志 2013(32)
- [5].法国病历最多一页[J]. 人人健康 2011(16)
- [6].爱康国宾杯平行病历征文启事[J]. 叙事医学 2020(04)
- [7].清单管理在封存病历中的应用[J]. 中国病案 2020(11)
- [8].住院病历存在缺陷的分析及对策[J]. 中国疗养医学 2014(05)
- [9].病历书写新理念在实习医师管理中的作用初探[J]. 医学争鸣 2014(04)
- [10].1104份终末病历缺陷分析与对策[J]. 中国病案 2014(10)
- [11].浅议病历及时归档的重要性[J]. 中国病案 2012(01)
- [12].男婴输液猝死医院 医生撕掉病历惹纠纷 原始病历可修改但不能销毁[J]. 中国社区医师 2012(02)
- [13].患者对病历资料的权利和义务[J]. 中国社区医师 2012(16)
- [14].某二级医院住院病历中不良事件风险评估的应用与研究[J]. 现代生物医学进展 2012(13)
- [15].医政执法视角下探讨病历资料的法律属性[J]. 中国卫生法制 2012(03)
- [16].关于对病历排序的基本原则及方法探讨[J]. 中国医院管理 2012(05)
- [17].病历也可成为医方的“利器”[J]. 中国社区医师 2011(07)
- [18].实习医师病历书写的常见缺陷及防范对策[J]. 中国病案 2011(03)
- [19].电子打印病历对病案质量的影响[J]. 中国病案 2011(06)
- [20].临床教学中病历书写教学的重要性[J]. 西北医学教育 2011(03)
- [21].我院病历延时回收的原因及对策[J]. 现代医学 2011(06)
- [22].修改病历须做到:一真实 二准确 三规范[J]. 中国社区医师 2010(03)
- [23].儿内科住院病历书写中的相关法律性问题[J]. 中国社区医师(医学专业) 2010(05)
- [24].修改与篡改 病历判定的分水岭[J]. 中国社区医师 2010(19)
- [25].褒贬共存的病历书写新规[J]. 首都医药 2010(11)
- [26].医疗损害中病历资料的法定义务[J]. 兰台世界 2010(12)
- [27].中医病历书写基本规范2010年7月1日起施行[J]. 中医药管理杂志 2010(07)
- [28].病历病案所有权归属及相关权利限制分析[J]. 兰台世界 2010(18)
- [29].住院病历复印邮寄的管理研究[J]. 激光杂志 2010(04)
- [30].病历复制中相关问题分析及管理措施探讨[J]. 中国科技信息 2009(06)