论文摘要
目的 文本相似性分析是知识管理研究的重要课题,不仅可以提高文献检索效率而且可以提高知识发现、信息分类的效率。为提高医学文献检索的效率和检索结果输出的有效性,快速客观地为科研人员提供高信度、低冗余的参考文献,实现检索结果按相关度排序输出,本文就基于向量空间模型的文献相关度计算方案进行探讨,提出了基于相关度的医学文献聚类分析,并讨论了研究结果在医学文献检索中的应用。 方法 选择3个相关课题(环境中全氟辛烷磺酸污染物的研究、乙脑疫苗应用及研究、骨形态构建蛋白在肺相关疾病中作用及机制的研究),从Medline中检索文献,计算检出文献的相关度。相关度的计算基于向量空间模型,经过建立索引词词典、转换文献向量、计算索引词权重、相似性度量四个步骤,得出相关度矩阵。其中建立索引词词典时采用两种方法:1.以4600篇MEDLINE样本文献为总体建立词典;2.以每个课题的检出文献为总体分别建立索引词词典。采用词频法(TF法)和词频-逆文档频率法(TF-IDF法)计算索引词权重。两两配对形成四种相关度算法,组1:样本课题检出文献为总体+TF法;组2:样本课题检出文献为总体+TF-IDF法;组3:4600篇文献为总体+TF法;组4:4600篇文献为总体+TF-IDF法。分别对四种方法算出的相关度聚类,比较分析聚类树形图,用F值评价聚类的效果。将效果较好的相关度算法应用到MEDLINE和CBM的文献检索中。 结果 从课题1的聚类树形图中可以看出聚类的效果组1<组2<组3<组
论文目录
相关论文文献
- [1].自我研究的“索引词方案”及其创发性思考[J]. 世界哲学 2017(06)
- [2].图书馆与索引之管见[J]. 中国索引 2013(02)
- [3].量化词的域限制[J]. 世界哲学 2017(02)
- [4].“数字索引学”要旨[J]. 中国索引 2010(04)
- [5].大数据时代索引面临的挑战与机遇——兼论索引与索引思维[J]. 上海高校图书情报工作研究 2018(03)
- [6].编制图书索引应注意的几个问题[J]. 发明与创新(职业教育) 2019(06)
- [7].从编校角度探讨药学类书稿书后索引的常见问题[J]. 科技传播 2020(01)
- [8].中国索引软件的开发与应用[J]. 中国索引 2009(02)
- [9].制订《新编地方志索引标准》的可行性分析及技术性建议[J]. 中国索引 2010(04)
- [10].对约束论证的再考察[J]. 哲学动态 2018(06)
- [11].索引概说——术语、特性、功能[J]. 上海高校图书情报工作研究 2018(03)
- [12].中华人民共和国标准GB/T 22466-2008索引编制规则(总则)[J]. 中国索引 2009(02)
- [13].地方综合年鉴索引规范化思考[J]. 中国年鉴研究 2019(03)
- [14].索引编制与信息组织的现状及趋势[J]. 上海高校图书情报工作研究 2018(03)
- [15].《鲁迅大全集·索引卷》编纂实践与体会[J]. 中国索引 2012(04)
- [16].索引词及其语义——兼谈汉语中的“我”和“自己”[J]. 逻辑学研究 2010(02)
- [17].大数据时代索引员的使命[J]. 中国索引 2013(04)
- [18].索引词意义问题探究[J]. 大众文艺 2017(18)
- [19].索引词研究的逻辑哲学意蕴及其启示[J]. 自然辩证法研究 2012(08)
- [20].索引词视域下信念认知意义的重构[J]. 自然辩证法研究 2014(01)
- [21].论续修志书推广索引体裁的必然性[J]. 中国索引 2010(01)
- [22].浅析年鉴索引编制现状及存在问题——以广东省市、县(区)综合年鉴为例[J]. 黑龙江史志 2019(04)
- [23].自我:心灵哲学新的聚焦点[J]. 社会科学研究 2018(04)
- [24].国际索引研究的现状与走向——记2009年澳大利亚和新西兰索引学会国际研讨会[J]. 中国索引 2010(02)
- [25].张琪玉索引学思想研究[J]. 中国索引 2012(03)
- [26].基于综合倒排索引的个性化搜索研究[J]. 贵州科学 2009(03)
- [27].云存储中利用属性基加密技术的安全数据检索方案[J]. 计算机应用研究 2016(03)
- [28].长距离“自己”的语义-语用解释理论及其问题[J]. 当代语言学 2012(01)
- [29].存在之谜新解[J]. 社会科学战线 2008(04)
- [30].一个完整的基于语义网的信息搜索模型[J]. 计算机技术与发展 2009(08)