中医古籍图像文献的自由标引方法研究

中医古籍图像文献的自由标引方法研究

论文摘要

随着古籍数字化工作的深入开展,中医古籍数字化工作也逐渐由简单的图像扫描向中医古籍文献的智能检索方向发展。而检索是目的,标引是手段。要实现对中医古籍文献地有效检索,就必须对中医古籍文献的标引进行深入研究。因此,本论文在借鉴以往研究的基础上,从图书馆为中医古籍文献研究者提供服务的角度出发,希望通过将现代文献的自由标引方法与中医古籍全文图像数据库相结合的研究来对中医古籍图像文献的标引利用做一些探讨,从而为中医研究者查阅和利用中医古籍文献提供更为可靠和更为便捷的服务。1研究现状目前中医古籍数字化工作主要还是通过扫描设备和校对设备完成文献载体的转换,基本属于“电子图书”类型。而中医古籍全文数据库的构建工作基本上都处于正在进行状态。虽然现有的中医古籍全文数据库,如中华医典、中医药古代文献知识库、龙语瀚堂典籍数据库之“中医药文献”数据库等各有特色,或以重新录入见长,或以解析标注见长,或以解决古籍生僻字的输入问题见长,均取得了一定的成果,但是也还普遍存在一些问题。如标引深度差异大、准确把握难度大;基于全文文本的检索、检准率低;后控检索应用少、检全率低等。针对存在的问题,本论文结合全文数据库本身的特点,遵循面向用户对象的原则,对自由标引的研究现状进行了分析。本论文具体阐述了自由标引的概念、使用范围、优点、缺点及解决方法、应用前景等问题,并通过对主题词标引与自由标引在标引深度、标引一致性、标引专指度、扩检和缩检能力、标引人员、标引速度、标引成本、面向用户能力、词汇更新等方面的比较分析,得出自由标引方法对于全文数据库的创建和满足现代用户的检索需求更具优势。同时,针对自由标引一致性差的缺点,本论文还对解决这一问题的方法即建立后控词表进行了分析。本论文对后控词表的概念、控制原理、功能及其决定因素、编制方式、国内外研究现状等方面进行了具体的介绍。从而在理论上说明了在标引时采用自由标引加上后控词表的方法,可以最好的实现全文数据库的检索功能。2研究对象、内容和目标本论文的研究对象是中医古籍图像文献。其实质就是中医古籍文献的全文图像数据库。本研究具体应用的数据库称之为中医古籍阅览系统。本论文的研究内容和目标主要有两项:第一,应用自由标引的方法对中医古籍图像文献进行分析标引,总结出各类中医古籍图像文献的具体标引规则,为今后继续标引提供一个统一的示范。第二,对提取的标引用词进一步予以分析归纳,总结出后控词表的具体设计方案和整个数据库的检索方案,进一步完善中医古籍图像文献数据库的检索功能。3研究目的和意义本论文的研究可以兼顾中医古籍文献的保护和利用;可以为标引人员提供标引依据,不仅有利于降低标引成本、提高标引速度和标引质量,而且有利于提高标引一致性,保障检索效率;可以为俭索用户提供便捷服务,节省大量查阅文献资料的时间,有利于促进中医学的知识发现与知识创新;可以为今后研究提供示范与参考。4研究方法本论文的研究方法主要有自由标引加后控词表的方法、文献分析法、比较法和统计学方法。自由标引加后控词表的方法是本论文重点研究和应用的方法。其中,本论文将自由标引的方法与中医古籍文献的目录、标题和主题相结合来对中医古籍图像文献进行标引,称之为“目录的深加工”。它具体是指在对中医古籍图像文献进行自由标引时,先以全书目录中的各条内容作为标引内容,在此基础上,将正文中明确写到而目录中没有的各级标题和各段主题也作为标引内容进一步予以标引。这种标引方法不仅可以全面反应每本书的具体框架,使用户对整本书的内容一目了然,实现快速浏览和快速定位;而且这样提取的标引用词是十分客观的,不会存在标引人员由于主观原因而对用户造成的不便与误导,可以实现有效检索。与此同时,本论文还运用文献分析法、比较法、统计学方法对各类中医古籍图像文献以及不同的标引方法和检索策略进行具体分析,以便更好的达到本论文的研究目的。5本论文的主要研究工作5.1各类中医古籍图像文献的具体标引方法研究本论文采用《中国中医古籍总目》的分类方法将中医古籍分为医经、基础理论、伤寒金匮、诊法、针灸、本草、方书、临证各科、养生、医案、医史医论医话、综合性著作(主要是丛书)十二大类,并对每类书的具体标引方法进行了研究。以下以本草类中医古籍图像文献的自由标引方法为例进行简要说明。在编写结构上,本草类的书除了与一般医书共有的序(叙)、跋、目录、凡例或附录等以外,正文结构也有自己的特点。完整的本草书一般是先分卷,再分大类,然后再列药名,其后再列药物的性味归经和主治等。在本草书中,药名、药物的性味归经和主治一般是必有的,其它的结构则或有或无。由此,其各种书的标引方法也就不同。大体分为以下三级情况:1、一级标引正文结构:正文不分卷,直接列出药名,其后再列药物的性味归经和主治等。标引方法:只将药名作为标引用词标出即可。2、二级标引正文结构:(1)正文不分卷,先列大类,然后列药名,其后再列药物的性味归经和主治等。(2)正文分卷,每卷下直接列出药名,然后列出药物的性味归经和主治等。标引方法:(1)先标出大类,再标出药名,其余不标。(2)先标出卷名,再标出药名,其余不标。3、三级标引正文结构:正文分卷,每卷下先列大类,然后再列药名,其后再列药物的性味归经和主治等。标引方法:先标出卷名,再标出大类,然后标出药名。5.2后控词表的设计方案词表范围:包括各类中医古籍文献中的中医用词。如医经、基础理论、伤寒金匮、诊法、针灸、本草、方书、临证各科、养生、医案、医史医论医话、丛书十二类书中的用词。词表控制程度:主要控制词汇的同义关系、近义关系、上位关系、下位关系和关联关系。对于词汇的古今对照关系,由于情况比较复杂、难度很大,本词表暂不涉及。词汇来源:主要包括标引人员所标出的自由标引用词、现有词表和其它中医专业工具书中的词汇和用户检索策略用词。词汇类型:主要是中医专业用词,如阴阳、人参等;也可以是单词,如头、疟等;或是短句,如治头痛等。词表结构及构建步骤:1、收集整理标引用词利用标引软件古籍编辑器对中医古籍图像文献进行标引后,得到的是xml格式的标引文件。通过对xml格式文件的计算机处理,可以将全部的标引用词抽出,形成一个词表。在这个词表中,共设三个字段,即标引用词、标识词和语义关系。标引用词,是指自由标引提取的标引用词,数据类型设为文本型。标识词,是指每个标引用词在数据库后控检索中的识别词,一般为常规或正式的用词,数据类型设为文本型。语义关系,是指标引用词与标识词之间的语义关系,包括Y(用)、C(参)、S(属)、F(分)等项,数据类型设为文本型。其中,“Y(用)”指同义关系;“C(参)”指近义关系;“S(属)”指上位关系;“F(分)”指下位关系。按标引用词的升序对这个词表进行排序,并对其中重复或无检索作用的标引用词进行剔除。其中无检索作用的标引用词主要是指仅用于表示文章整体框架,而不用于检索的词,如“序”、“目录”、“卷一”、“附方”、“附录”等。借助现有的词表或相关工具书对词表中的标识词、语义关系进行修改和补充。再按标识词、标引用词、语义关系的升序依次进行排序,形成一个初步的后控词表。2、形成比较完善的后控词表在上述后控词表的基础上,以标识词为分类依据,对标引用词进行聚类分析,创建可供不断完善的后控词表。在这个后控词表中,共设七个字段,即类号、标识词、同义词、近义词、上位词、下位词和关联词。其中类号,是指标识词的顺序号,用整数表示,数据类型设为数值型;标识词,同上述后控词表中的标识词;同义词,是指与标识词有同义关系的标引用词,即上述后控词表中与标识词的语义关系为“Y(用)”的标引用词,数据类型设为文本型;近义词,是指与标识词有近义关系的标引用词,即上述后控词表中与标识词的语义关系为“C(参)”的标引用词,数据类型设为文本型;上位词,是指与标识词有上位关系的标引用词,即上述后控词表中与标识词的语义关系为“F(分)”的标引用词,数据类型设为文本型;下位词,是指与标识词有下位关系的标引用词,即上述后控词表中与标识词的语义关系为“S(属)”的标引用词,数据类型设为文本型;。另外,还增设了一个字段,即关联词。它是指与标识词关联密切的标引用词,语义关系用“L(联)”表示,数据类型设为文本型。词表形式:①机读版;②印刷版(必要时)。前者便于动态维护和管理,因而以前者为主。5.3中医古籍阅览系统的功能改善2005年,根据科技部“再生性古籍保护”项目的要求,中国中医科学院图书馆依托自身的技术力量,开发了中医古籍阅览系统。该系统就是试图利用自由标引的方法来实现对中医古籍图像文献的有效检索。本论文通过上述研究对该系统做了进一步的改善,并对系统采用的主要技术、系统对硬件软件的要求、系统检索界面、系统具体功能等方面进行了较为全面地介绍。尤其是系统功能方面,不仅详细介绍了该系统的类目浏览直接翻看全书、简单检索和组合检索、全文检索、后控检索、图文关联检索等功能,而且将通过本论文的研究而设计的比较完善的中医古籍阅览系统与中医药古代文献知识库和龙语瀚堂典籍数据库之“中医药文献”数据库在标引内容与深度、检索选项、类目浏览、直接翻看全书、书名检索、内容提要检索、作者检索、馆藏地检索、图片信息检索、书籍信息检索、模糊检索、精确检索、涵盖部分关键词、涵盖全部关键词、同义词检索、近义词检索、上位词检索、下位词检索、关联词检索、图文关联检索、图文对照浏览、超大字库等方面进行了比较研究,进一步说明了本论文所做研究的必要性和优越性。6结论本论文结合中医古籍图像文献特点,通过对中医古籍图像文献的自由标引方法研究得出以下结论:第一,按照“目录深加工”的方法对各类中医古籍图像文献进行自由标引,不仅可以客观而全面的反映中医古籍文献的内容,而且可以为今后的标引工作提供示范。第二,在自由标引的基础上创建后控词表,有利于大大提高检索效果。第三,中医古籍阅览系统的创建与完善需要在借鉴其它数据库优点的基础上,综合利用多种先进的计算机技术才能实现。本论文中采用的各种方法和技术都是现有的,本论文的创新之处在于将这些方法和技术有机的结合在一起,使建立一个文献资料可靠、检索性能优良、用户使用便捷的中医古籍图像文献数据库成为可能。

论文目录

  • 目录
  • 中文摘要
  • 英文摘要
  • 1 前言
  • 2 研究现状
  • 2.1 中医古籍全文数据库的研究现状
  • 2.1.1 中华医典
  • 2.1.2 中医药古代文献知识库
  • 2.1.3 龙语瀚堂典籍数据库之“中医药文献”数据库
  • 2.1.4 主要存在的问题汇总
  • 2.2 自由标引的研究现状
  • 2.2.1 概念
  • 2.2.2 使用范围
  • 2.2.3 优点
  • 2.2.4 缺点及解决方法
  • 2.2.5 主题词标引与自由标引的比较
  • 2.2.6 应用前景
  • 2.3 后控词表的研究现状
  • 2.3.1 概念
  • 2.3.2 控制原理
  • 2.3.3 功能及其决定因素
  • 2.3.4 编制方式
  • 2.3.5 国内外研究现状
  • 3 研究对象、内容和目标
  • 3.1 中医古籍文献的特点
  • 3.2 中医古籍图像文献的特点
  • 3.3 研究内容和目标
  • 4 研究目的和意义
  • 4.1 兼顾中医古籍文献的保护和利用
  • 4.2 为标引人员提供标引依据
  • 4.3 为检索用户提供便捷服务
  • 4.4 为今后研究提供示范参考
  • 5 研究方法
  • 5.1 标引软件——古籍编辑器
  • 5.2 总的标引方法——目录的深加工
  • 5.3 标引总则
  • 5.4 标引细则
  • 5.5 备注说明
  • 5.6 其它方法
  • 6 各类中医古籍图像文献的具体标引方法
  • 6.1 医经类的标引
  • 6.2 基础理论类的标引
  • 6.3 伤寒金匮类的标引
  • 6.4 诊法类的标引
  • 6.5 针灸推拿类的标引
  • 6.6 本草类的标引
  • 6.7 方书类的标引
  • 6.8 临证各科类的标引
  • 6.9 养生类的标引
  • 6.10 医案类的标引附医话医论、笔记杂录标引
  • 6.11 医史类的标引
  • 6.12 丛书类的标引
  • 7 后控词表的设计方案
  • 7.1 词表范围
  • 7.2 词表控制程度
  • 7.3 词汇来源
  • 7.4 词汇类型
  • 7.5 词表结构及构建步骤
  • 7.6 词表形式
  • 7.7 后控词表的控制流程图
  • 8 改善的中医古籍阅览系统介绍
  • 8.1 系统采用的主要技术
  • 8.2 系统对硬件软件的要求
  • 8.3 系统检索界面
  • 8.4 系统具体功能介绍
  • 8.5 与其它数据库的比较
  • 8.6 总的标引检索流程图
  • 9 结论与展望
  • 9.1 结论
  • 9.2 展望
  • 参考文献
  • 致谢
  • 个人简介
  • 相关论文文献

    • [1].中医译者素质研究——以中医古籍翻译为例[J]. 海外英语 2020(09)
    • [2].《中国中医古籍总目》民国妇科文献补正[J]. 安徽中医药大学学报 2020(04)
    • [3].运用循证医学原则制定中医古籍证据评价分级量表的思路[J]. 中华中医药杂志 2020(06)
    • [4].《中国中医古籍总目》民国时期中医基础理论类著作补正[J]. 北京中医药大学学报 2020(09)
    • [5].对中医古籍知识的评价思考[J]. 光明中医 2019(12)
    • [6].基于加强中医古籍保护传承传统文化的探讨[J]. 中国继续医学教育 2016(11)
    • [7].中医古籍书名辨识[J]. 中国中医药图书情报杂志 2016(04)
    • [8].中医古籍数据库的建设与应用[J]. 中国科技信息 2015(05)
    • [9].数字化中医古籍知识服务的探索与实践[J]. 中国数字医学 2011(01)
    • [10].浅谈研究中医古籍版本学的功用[J]. 散文百家(新语文活页) 2017(01)
    • [11].从《脉经》英译实践透视中医古籍英译的现实意义[J]. 中译外研究 2013(00)
    • [12].天津科学技术出版社中医古籍精品图书免邮资大优惠[J]. 长寿 2013(10)
    • [13].从中医古籍看古人的卫生防疫[J]. 中华卫生杀虫药械 2020(04)
    • [14].中医古籍书名翻译方法及标准化探讨[J]. 中医药导报 2019(07)
    • [15].国医大师李今庸教授整理中医古籍方法研究[J]. 时珍国医国药 2017(12)
    • [16].中医古籍整理的思考[J]. 中国中医药现代远程教育 2018(06)
    • [17].湖北省中医古籍资源调查[J]. 湖北中医药大学学报 2018(05)
    • [18].中医古籍语言系统中的语义类型分析研究[J]. 中国数字医学 2012(04)
    • [19].数字化图书编辑中有关中医古籍文献的现代适用[J]. 中国中医基础医学杂志 2014(01)
    • [20].加强中医古籍保护 传承传统文化[J]. 河南图书馆学刊 2014(02)
    • [21].中医古籍英译现代意义的多维度审视[J]. 环球中医药 2014(10)
    • [22].谈中医古籍英译历史研究的现代意义[J]. 科技视界 2013(23)
    • [23].中国馆藏“和刻”中医古籍[J]. 收藏 2013(17)
    • [24].中医古籍出版社体制改革的三点认识[J]. 中医药管理杂志 2010(04)
    • [25].中医古籍研究的创新力作——《中医古籍用字研究》评介[J]. 中医药文化 2008(06)
    • [26].中医古籍类图书出版情况概述[J]. 才智 2008(23)
    • [27].新中国中医古籍出版工作概述[J]. 贵阳中医学院学报 2008(05)
    • [28].《中国中医古籍总目》民国时期本草类著作辨证[J]. 安徽中医药大学学报 2020(02)
    • [29].1949-2019年中医古籍影印整理工作的回顾与展望[J]. 中国中医药图书情报杂志 2019(05)
    • [30].明清中医古籍中的药堂药目考[J]. 时珍国医国药 2017(11)

    标签:;  ;  ;  ;  ;  ;  

    中医古籍图像文献的自由标引方法研究
    下载Doc文档

    猜你喜欢