面向WI输入法的新词发现技术研究与实现

面向WI输入法的新词发现技术研究与实现

论文摘要

拼音输入法通过输入拼音串转换为汉字串,转换的准确率很大程度上取决于词典是否涵盖常用词汇,特别是一些新兴词汇。手工向词典中加入新词费时费力,而新词发现技术则从大规模文本中自动挖掘新词,具有自动化、易于发现热门词汇等特点。本文将探讨新词发现技术,并将挖掘出来的新词添加到输入法词典中以期提高输入法的音字转换准确率。本文首先探讨了两类新词的挖掘方法:情感词以及商品词。在情感词挖掘中,本文提出基于最大流最小割原理的迭代中文情感词挖掘方法,实验结果显示,基于该思想在挖掘主观词方面具有较强能力,其性能高于传统的基于统计模型的主观词挖掘方法;在商品词挖掘中,本文选择用户在购物网站上的搜索日志作为发现商品词的数据来源,并根据搜索日志的数据特点,在对用户查询(query)的自然分词基础上,采用N元递增分步算法和串频统计,计算候选串的条件概率,选择候选商品词。最后,本文介绍了针对“苹果”公司iOS平台的输入法开发的相关流程,并展示了新词发现技术在WI输入法中发挥的重要作用。WI输入法是哈尔滨工业大学计算机学院语言技术中心网络智能研究室研发的一款面向苹果平台的中文语句级输入法。它的第一个版本于2010年11月11日发布,目前已有用户12万以上,其输入的准确性、流畅性等获得了用户的广泛好评。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题来源及研究意义
  • 1.2 新词的定义及分类
  • 1.3 国内外研究现状
  • 1.3.1 基于规则的新词发现方法
  • 1.3.2 词语情感倾向性分析
  • 1.3.3 规则和统计相结合的新词发现方法
  • 1.4 本文的内容组织
  • 第2章 基于最大流最小割原理的迭代中文情感词挖掘研究
  • 2.1 引言
  • 2.2 相关模型
  • 2.2.1 最大熵模型
  • 2.2.2 最大流最小割原理
  • 2.3 基于最大流最小割的迭代中文情感词挖掘
  • 2.3.1 构建情感词典
  • 2.3.2 情感词分类
  • 2.3.3 构建词的加权无向图
  • 2.4 实验与分析
  • 2.4.1 数据
  • 2.4.2 实验结果与分析
  • 2.5 本章小结
  • 第3章 基于N 元递增分步算法的商品词发现
  • 3.1 商品词的概念
  • 3.1.1 商品词的特点
  • 3.1.2 商品词的作用
  • 3.2 商品词发现的任务
  • 3.3 商品词发现处理的数据
  • 3.4 商品词发现的方法
  • 3.4.1 商品词发现的方法概述
  • 3.4.2 日志的预处理
  • 3.4.3 候选词的挖掘
  • 3.5 结果评价
  • 3.5.1 评价方式
  • 3.5.2 评价结果
  • 3.6 本章小结
  • 第4章 新词在WI 输入法中的应用
  • 4.1 iOS 系统介绍
  • 4.1.1 各个层的功能及其包含的组件和框架
  • 4.1.2 iOS 上开发软件的限制
  • 4.1.3 iOS 上应用程序开放环境介绍
  • 4.2 iOS 中文输入法开发的重点难点
  • 4.2.1 iOS 上两类输入法的区别
  • 4.2.2 iOS 中文输入法开发的难点
  • 4.2.3 iOS 中文输入法开发的重点
  • 4.3 新词在WI 输入法中的应用
  • 4.3.1 加入情感词对音字转换精度的影响
  • 4.3.2 加入商品词对音字转换精度的影响
  • 4.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文及其它成果
  • 致谢
  • 相关论文文献

    • [1].基于注意力机制的评论情感分析及情感词检测[J]. 计算机科学 2020(01)
    • [2].基于“属性-情感词”汽车本体的文本情感分析[J]. 计算机技术与发展 2020(08)
    • [3].基于分类的微博新情感词抽取方法和特征分析[J]. 计算机学报 2018(07)
    • [4].音乐对情感词加工的情感意义双启动效应[J]. 北方音乐 2014(10)
    • [5].基于语义分析的评价对象-情感词对抽取[J]. 计算机学报 2017(03)
    • [6].情感词信息加工的脑神经认知机制研究[J]. 西北民族大学学报(自然科学版) 2015(03)
    • [7].基于特征选择技术的情感词权重计算[J]. 北京工业大学学报 2016(01)
    • [8].情感词扩展对微博情感分类性能影响的实验分析[J]. 小型微型计算机系统 2016(05)
    • [9].结合情感词网的中文短文本情感分类[J]. 计算机应用研究 2015(10)
    • [10].单词统计特性在情感词自动抽取和商品评论分类中的作用[J]. 计算机应用研究 2019(03)
    • [11].基于句法依赖规则和词性特征的情感词识别研究[J]. 情报理论与实践 2018(05)
    • [12].基于词语相关度的微博新情感词自动识别[J]. 计算机应用 2016(02)
    • [13].网络商品评论的特征–情感词本体构建与情感分析方法研究[J]. 现代图书情报技术 2014(05)
    • [14].基于耦合关系的情感词语义分析方法[J]. 计算机科学与探索 2014(09)
    • [15].音乐对情感词加工的情感/意义双启动效应[J]. 心理科学 2013(03)
    • [16].基于依存关联分析的情感词扩展[J]. 北京邮电大学学报 2012(05)
    • [17].网络情感词自动识别方法研究[J]. 现代图书情报技术 2011(10)
    • [18].基于关联规则挖掘和极性分析的商品评论情感词典构建[J]. 情报学报 2016(05)
    • [19].结合依存关联分析和规则统计分析的情感词库构建方法[J]. 武汉大学学报(理学版) 2013(05)
    • [20].基于翻译和语义方法的情感词挖掘研究[J]. 计算机工程与应用 2011(32)
    • [21].基于句法结构和依存关系的评价对象提取[J]. 计算机应用研究 2020(04)
    • [22].基于领域情感词库的大气质量感知满意度研究[J]. 环境污染与防治 2020(09)
    • [23].基于词间距和点互信息的影评情感词库构建[J]. 阜阳师范学院学报(自然科学版) 2019(02)
    • [24].中小学藏文教材中情感词的分布规律研究[J]. 电脑知识与技术 2016(06)
    • [25].基于情感词属性和云模型的文本情感分类方法[J]. 计算机工程 2013(12)
    • [26].领域情感词典构建方法研究[J]. 图书馆理论与实践 2019(12)
    • [27].基于情感词向量的微博情感分类[J]. 中文信息学报 2017(03)
    • [28].基于上下文的情感词向量混合模型[J]. 计算机科学 2020(S2)
    • [29].中文基础情感词词典构建方法研究[J]. 计算机应用 2009(10)
    • [30].二语情感抽象概念加工的具身认知研究[J]. 宁波大学学报(人文科学版) 2020(06)

    标签:;  ;  ;  ;  

    面向WI输入法的新词发现技术研究与实现
    下载Doc文档

    猜你喜欢