高校教师社会网络的自动构建技术研究

高校教师社会网络的自动构建技术研究

论文摘要

随着互联网的快速发展,网页信息内容出现了爆炸性的增长。这虽然使得人们从互联网上获取想要的信息变得可能,但是如何从海量信息中快速发现这部分有用内容却是亟待解决的问题。另一方面,社交网络的兴起有效地推动了人与人之间的交流,并在一定程度上改变了人们获取信息的方式。本课题旨在利用机器学习、数据挖掘等自然语言处理相关技术,以高校教师为研究对象,自动化的构建一个高校教师社会网络,不仅向广大互联网用户提供教师个人信息、研究信息等内容,实现一个更直接、高集成、全方位、多角度的信息展示平台,而且在此基础上打造一个大量科研人员参与的学术交流平台。本文重点研究了以下问题:首先,本文实现了一种基于块划分的教师个人信息抽取模型。教师个人信息是指姓名、学校、职称等,是教师信息的基本组成部分。本文对于互联网上的教师介绍页面,首先进行预处理,然后将其划分成不连续的信息块,利用条件随机域模型对块中的信息项进行标注。词级别特征对于基本信息和联系信息的抽取已经有了较好的结果。通过将特征从词级别扩充到块级别,能够有效解决教育相关信息项存在的长距离依赖的问题。其次,论文发表情况最能反映教师研究信息,本文设计了相应的框架获取教师论文信息。获取到的教师论文中存在教师姓名非完全匹配、重名等引入的错误,姓名非完全匹配利用规则方法可以去除,本文重点研究了论文作者重名消歧问题,提出了一种基于层次聚类的消歧策略。在聚类过程中使用论文的基本信息作为特征,并分别使用了基于先验知识和基于相似度阈值的两种聚类终止条件。最后,基于教师基本信息和研究信息,本文研究了高校教师社会网络的构建和社区发现。教师之间有多种关系,这里主要依据相同研究方向进行网络构建,并使用了两种方法。一是利用主题模型发现教师所有论文的主题分布特征,以此计算每两个教师之间的关系构建出社会网络,然后利用马尔科夫聚类模型进行社区发现。另一种方法是利用教师论文关键词集合建立教师之间的联系,针对该网络使用了两种复杂网络聚类算法进行社区发现,并从社区发现质量和时间效率上对这两种方法进行了分析。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题研究的背景和意义
  • 1.2 国内外研究现状
  • 1.2.1 信息抽取技术
  • 1.2.2 重名消歧技术
  • 1.2.3 复杂网络及社区发现技术研究
  • 1.3 研究内容及论文结构安排
  • 第2章 基于块划分的教师个人信息抽取
  • 2.1 引言
  • 2.2 教师个人信息抽取问题描述
  • 2.3 基于块划分的信息抽取模型
  • 2.3.1 网页预处理
  • 2.3.2 信息块划分
  • 2.3.3 标注模型及特征选择
  • 2.4 实验结果及分析
  • 2.4.1 实验数据准备
  • 2.4.2 实验评价
  • 2.4.3 实验结果及分析
  • 2.5 本章小结
  • 第3章 论文作者重名消歧研究
  • 3.1 引言
  • 3.2 论文数据获取
  • 3.2.1 数据源的选择
  • 3.2.2 教师论文列表获取
  • 3.2.3 论文详细信息获取
  • 3.3 论文作者重名消歧问题描述
  • 3.4 基于聚类的论文作者重名消歧方法
  • 3.4.1 特征选择
  • 3.4.2 聚类终止条件
  • 3.5 实验与分析
  • 3.5.1 数据集准备
  • 3.5.2 评价及实验结果
  • 3.5.3 错误分析
  • 3.6 本章小结
  • 第4章 社会网络构建及社区发现研究
  • 4.1 引言
  • 4.2 高校教师网构建及社区发现问题描述
  • 4.3 基于主题模型的社会网络构建和社区发现
  • 4.3.1 基于主题模型的教师社会网路构建
  • 4.3.2 基于马尔科夫聚类的社区发现技术
  • 4.4 基于关键词的社会网络构建和社区发现
  • 4.4.1 基于关键词的教师社会网络构建
  • 4.4.2 基于复杂网络聚类算法的社区发现
  • 4.5 实验及分析
  • 4.5.1 实验数据及评价标准
  • 4.5.2 实验结果及分析
  • 4.6 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文及其他成果
  • 致谢
  • 相关论文文献

    • [1].基于网络表示学习的作者重名消歧研究[J]. 数据分析与知识发现 2020(Z1)
    • [2].基于多特征融合的同名专家消歧方法研究[J]. 北京大学学报(自然科学版) 2020(04)
    • [3].基于元路径异构网络嵌入的姓名实体消歧方法[J]. 河北科技大学学报 2020(03)
    • [4].融合实体知识描述的实体联合消歧方法[J]. 中文信息学报 2020(07)
    • [5].面向学术文献的作者名消歧方法研究综述[J]. 数据分析与知识发现 2020(08)
    • [6].科学合作网络姓名消歧问题研究[J]. 甘肃科技 2020(16)
    • [7].基于稀疏分布式表征的英文著者姓名消歧研究[J]. 计算机应用研究 2019(12)
    • [8].基于上下文特征的领域文献实体消歧算法[J]. 北京生物医学工程 2018(04)
    • [9].一种易用的实体识别消歧系统评测框架(英文)[J]. Frontiers of Information Technology & Electronic Engineering 2017(02)
    • [10].地名知识辅助的中文地名消歧方法[J]. 地理与地理信息科学 2016(04)
    • [11].消歧审议瑞士行[J]. 中国妇运 2015(02)
    • [12].文献数据库中作者名自动化消歧方法应用研究[J]. 情报杂志 2013(09)
    • [13].自然语言处理中的语义消歧研究[J]. 淮南师范学院学报 2013(05)
    • [14].基于层次聚类的中文人名消歧方法研究[J]. 心智与计算 2010(04)
    • [15].一种论文作者重名消歧方法[J]. 软件导刊 2020(03)
    • [16].基于专家研讨思想的发明人姓名消歧研究[J]. 情报科学 2019(04)
    • [17].基于规则的维吾尔人名智能消歧研究[J]. 数字技术与应用 2017(12)
    • [18].基于双词主题模型的半监督实体消歧方法研究[J]. 电子学报 2018(03)
    • [19].我国专利数据中发明家姓名消歧算法研究[J]. 情报学报 2016(04)
    • [20].姓名消歧方法研究进展[J]. 情报工程 2016(01)
    • [21].一种基于特征映射的中文专家消歧方法[J]. 中文信息学报 2016(02)
    • [22].信息抽取和实体消歧[J]. 福建电脑 2014(11)
    • [23].基于向量空间模型的古汉语词义自动消歧研究[J]. 图书情报工作 2013(02)
    • [24].基于序列标注的全词消歧方法[J]. 中文信息学报 2012(02)
    • [25].机器翻译的一些消歧方法研究[J]. 西南民族大学学报(自然科学版) 2008(04)
    • [26].基于因子图的不一致记录对消歧方法[J]. 计算机研究与发展 2020(01)
    • [27].基于实体关联的消歧算法研究[J]. 中国电子科学研究院学报 2020(03)
    • [28].聚类集成技术在中文人名消歧中的应用研究[J]. 信息系统工程 2020(04)
    • [29].基于特征加权重叠度的中文实体协同消歧方法[J]. 中文信息学报 2017(02)
    • [30].面向实体链接的多特征图模型实体消歧方法[J]. 计算机应用研究 2017(10)

    标签:;  ;  ;  ;  

    高校教师社会网络的自动构建技术研究
    下载Doc文档

    猜你喜欢