论文摘要
随着科学技术的快速发展,学科分工愈来愈细。不同学科间表面上没有任何联系的文献中,可能隐含着未被发现的有价值的关联。挖掘文献之间的这些隐含的联系对科学发展具有重要推动作用。近20年来,情报工作者对这一领域展开了积极探讨,美国芝加哥大学的情报学教授Don R.Swanson,首先以充分的文献证据论证了基于非相关文献的知识发现思想。随后,各国科学家都纷纷用不同的方法来测试和验证Swanson的思想和结论,分析所采用的数据源皆为Medline记录。本文继承了Swanson的思想,以中国期刊网1979年到2006年全文数据库生物医药卫生领域的文献为数据源,分别研究开放式和闭合式非相关文献的知识发现算法,并实现基于汉语的非相关文献知识发现系统。Swanson算法只对标题进行了处理,而本文将其算法进行了延伸,分别对标题和摘要都进行了处理。并且解决了处理汉语文献过程遇到的许多实际问题,如汉语分词、语词多义性等等。在研究开放式知识发现过程中,通过验证“偏头痛/镁”这对假设在汉语文献中是否存在关联,来判断本文采用的开放式知识发现算法的可行性。开放式知识发现系统对标题和摘要分别进行了处理,算法都是模拟Swanson的思想。但是因为每个词在每篇标题中只出现一次(大于一次的忽略),而在摘要中可能出现大于一次的现象,所以在处理标题和摘要时,具体的算法公式略有区别。结论是,无论处理标题还是摘要,通过开始文献,中间词,目标词的步骤都能从“偏头痛”找到“镁”。使用标题计算与使用摘要计算相比,优点是速度快,缺点是找到的中间词不如以摘要计算多,而且找到的目标词“镁”的排列位置不如以摘要计算靠前。闭合式知识发现过程,目的是通过书目不相关联的“雷诺氏病/鱼油”、“偏头痛/镁”之间的逻辑关联的存在性,验证本文采用的闭合式知识发现算法在汉语文献中的可行性,若可行,则闭合式知识发现系统可以用来验证开放式知识发现系统提出的假设是否准确。系统采用的是Swanson教授本人的闭合式知识发现算法,同样对标题和摘要都进行了处理,结果发现用标题计算仅能求得部分中间词,而用摘要计算可以求得几乎所有期望得到的中间词,可见此算法处理摘要的效果优于处理标题。最后,本文分别对开放式和闭合式发现过程进行了验证与分析,并把发现结果跟Swanson教授的发现结果进行了对比讨论。得出如下结论:由于存在语种区别,人工干预,处理方法的细微差别等问题,本文得到的结果跟Swanson的结果不完全一致。但是Swanson教授的算法思想应用在汉语文献中同样可行。