汉语篇章零回指的解析与生成:一项基于语料的向心研究

汉语篇章零回指的解析与生成:一项基于语料的向心研究

论文摘要

回指是自然语言中最为常见的现象之一,因而回指解析与生成对于语篇理解和生成至关重要。零形回指在汉语语篇中应用广泛,然而解析和生成零形回指却是一项较为棘手的任务,因为汉语中的零形回指可充当各种论元角色,且先行词也可以出现于任一语法位置。到目前为止,许多学者从不同角度探讨了汉语零形回指的解析与生成方法,其中最为普遍的是从句法角度(Huang J.,1984,1989;XuL.J.,1986),语篇功能角度(Li and Thompson,1979,1981;Chen,1986;Xu J.J.,1990,2003;Tao,1993,1997;Cheng,1990;Lee,1990,1995;You,1998;Xu Y L.,1995,2004),语用角度(Huang Y,1994)以及认知角度(Tomlin and Pu,1991)。然而这些研究在很大程度上还是停留于‘解释’阶段,因而不能成为真正意义上的‘解析’与‘生成’。而且这些研究不够明晰化且应用性较弱,不太适用于计算机处理。本研究旨在推导出用于解析和生成汉语语篇零形回指的计算模型。向心理论(Centering Theory,Grosz et al.1995;Walker et al.1998,inter alia)是当前计算机语言学中用于语篇回指解析与生成的主要理论模式之一。为了验证该理论中规则和限制条件的跨语言适用性,许多学者将其应用于各种语言的回指解析与生成。其中有些学者将其应用于零形回指的解析与生成(Kameyama,1985,1986,1988,1998;Walker,Iida,and Cote,1990,1994;Mitsuko et al.,2001;Turan,1995,1998;DiEugenio,1990;Rambow,1993;Ryu,2001;Prasad,2003;Prince,1994)。然而在国内,很少有学者将向心理论应用于汉语语篇回指解析与生成。从已发表的文献中,笔者只发现两篇有关向心理论的文章。一篇是(Miao,2003),另一篇是(Wang,2004)。Miao(2003)对向心理论进行了评介,但没有将其应用于汉语语篇分析;Wang(2004)将向心理论应用于汉语语篇零形回指的解析,但他使用的算法是采用Iida(1998)的宏观模型(Global Model),而且对于许多细节问题都没有进行深入探讨。基于以上情况,本研究拟将向心理论全面而系统地应用于汉语语篇分析,从而推导出用于解析和生成汉语语篇零形回指的计算模型。本研究将向心理论作为理论框架。推导出的第一个计算模型是汉语零形回指解析模型,称为RICM(Revised Integrated Cache Model)。此模型是对Walker(1996)集成贮藏模型(Imegrated Cache Model)的改进,它吸取了Walker(1996)的‘反堆栈’(anti-stack)思想,并利用了Cheng(1990)和Lee(1990,1995)的找回原则(Recovery Principles),因为词汇语义可作为寻找指称对象的理想寻找提示语(retrieval cues)。具体来说,本研究修订了第一向心规则(或称代词规则),并制定了其他六个规则,即下指中心排序规则(the Cf Ranking rule)、下指中心提升规则一(theCf Promotion ruleⅠ)、下指中心提升规则二(the Cf Promotion ruleⅡ)、下指中心迁移规则(the Cf Transfer rule,)、下指中心删除规则(the Cf Deletion rule)以及下指中心移出规则(the Cf Displacement rule)。基于以上规则,本研究推导出汉语零形回指的解析模型和算法。与堆栈模型(Crosz and Sidner 1986)、宏观模型(Iida 1998)和贮藏模型(Walker 1996)相比,此模型的优点是既可以不求助于宏观排序列表来解析跨语段零形回指,还可以解决排序较低实体充当回指中心的问题。为了验证本解析算法的有效性,我们进行了实证研究,所采用的语料是选自《中国民间故事选粹》中的18篇短篇故事。实验结果表明,在语料中出现的所有零形回指中,95%都被本算法成功解析,因此本算法是有效可行的,因为算法的解析正确率为95%。本研究推导出的第二个计算模型是汉语零形回指生成模型。此模型将向心过渡类型(Centering Transitions)作为回指词分布的限定条件,因为过渡类型是生成回指形式的有效方法之一(Turan 1995;Kim 1999;Ryu 2000)。本研究从语料中提取出所有相关的过渡类型,并基于这些过渡类型推导出零形回指生成算法。通过语料验证,此算法的生成准确率高达96.75%,因此此算法是有效可行的。由于向心理论具有跨语言的特征,因此必须对其参数进行适当的修订,以便对汉语语篇进行应用分析。这些参数包括语段定义、语篇片段切分和下指中心集排序。语段(utterance)是语篇组织的基本单位。基于先前的定义方法(Li,1956;Hu,1981;Huang & Liao,1981;Mann and Thompson 1987;Crystal 1991;Zhu,1995;Poesio 1995;Traum & Heeman 1996;Bussmann 1996;Chu 1998;Kameyama 1998;Aronoff & Rees-Miller 2001;Song,2001;Xu,2003),本研究推导出语段的定义方法,此方法适用于汉语语篇的向心分析,因为它既符合汉语的句子特征,又便于计算机处理。语篇可切分为一个个语篇片段(discourse segrnent),但语篇片段的切分标准和方法却尚无定论。为避免出现无回指中心(Nil)和零过渡类型(NO Cb),并基于Cheng(1990)的话题连续段(topic continuity),本研究推导出适用于汉语语篇向心分析的语篇片段切分方法。此切分方法具有如下四个优点:1)能避免因过度切分而导致的过多的无回指中心和零过渡类型,因此可使较多的过渡类型参与决定回指形式的分布;2)能有效解决向心与宏观语篇结构的互动,以及将向心应用于拓展语篇等问题;3)可使可推导实体(inferables)作为后续语段指称的潜在指称对象;4)它尤其适用于汉语语篇的向心分析,因为在汉语语篇中,跨语段指称和跨段落指称较为普遍,而且零形代词、代词以及全称名词短语有时可以互换使用。不同的语言具有不同的下指中心集排序方法,且决定排序的因素在向心文献中还没有完全确定。基于Chao(1968)所提出的话题(topic)和Li & Thompson(1979)的话题显著性(topic-prominence)以及Chen(1984)的可及性排序(Accessibility Hierarchy),本研究制定出汉语下指中心排序方法。为验证此方法的可行性,本研究进行了语料实证,结果证明此方法是有效可行的。此外,本研究还探讨了促使实体突显的其他因素,如存现结构以及高意图性(highintentionality)和控制(control)的介入。为进一步提高此排序方法的全面性,本研究还就如何对复合名词短语进行排序进行了探讨。基于Tetreault(2001)的观点以及Walker and Prince(1995)、Gordonet al.(1999)和Hobbs(1978)的方法,本研究提出汉语中复合名词短语的排序方法。此方法较为折中,因而较适用于汉语语篇中对复合名词短语的有效排序。由于过渡类型的计算对于本研究,尤其是零形回指的生成至关重要,本研究对其进行了较为深入的探讨。通过结合Laurel Fais(2004)的定义和Strube andHahn(1999)的分类方法,本研究设定了18种过渡类型。这些过渡类型在分类上更为细致,且在推理努力上能保持高度的一致性,更为重要的是,它们可以有效处理为可推导下指中心设定过渡类型的问题。此外,这些过渡类型还可用于进一步提高本研究所提出的零形回指解析算法和生成算法的有效性。本研究提高了向心理论的语篇处理能力,扩大了它的应用范围。希望本研究能促进人们对语篇回指的更进一步理解,并有助于汉语自然语言的计算机处理。

论文目录

  • Acknowledgements
  • Abstract
  • Abstract in Chinese
  • List of abbreviations
  • List of tables and figures
  • Chapter One INTRODUCTION
  • 1.1 Basic notions and terminology
  • 1.2 Types of anaphora
  • 1.3 Anaphora resolution and generation
  • 1.4 Scope and goal of the dissertation
  • 1.5 Outline of the dissertation
  • Chapter Two PREVIOUS APPROACHES TO ZERO ANAPHORA IN CHINESE
  • 2.1 Introduction
  • 2.2 A syntactic approach
  • 2.3 An extra-syntactic approach
  • 2.3.1 The discourse framework
  • 2.3.1.1 Li and Thompson's conjoinability constraint
  • 2.3.1.2 Chen's predictability condition and negligibility condition
  • 2.3.1.3 Zhou's global coherence
  • 2.3.1.4 Xu's functional approach
  • 2.3.1.5 Tao's emergent reference
  • 2.3.1.6 Cheng's and Lee's recovery principles
  • 2.3.1.7 You's recovery rules
  • 2.3.1.8 Xu's resolution principle
  • 2.3.2 Huang's pragmatic approach
  • 2.3.3 Tomlin and Pu's cognitive approach
  • 2.4 Summary
  • Chapter Three CENTERING THEORY
  • 3.1 Introduction
  • 3.2 Centering theory
  • 3.2.1 General description
  • 3.2.2 Coherence and attentional state
  • 3.2.3 Coherence and referring expression form
  • 3.2.4 Centering definitions and constraints
  • 3.3 Summary
  • Chapter Four RESOLVING CHINESE ZERO ANAPHORS WITH RICM
  • 4.1 Introduction
  • 4.2 BFP algorithm for centering and anaphora resolution
  • 4.3 Implementation of BFP
  • 4.4 Problems with Centering and BFP
  • 4.5 Previous proposals for possible solution
  • 4.5.1 The Stack Model
  • 4.5.2 The Global Model
  • 4.5.3 The Cache Model
  • 4.5.3.1 Basic notions of the Cache Model
  • 4.5.3.2 Integrating cache model with centering algorithm
  • 4.5.3.3 Implementation of ICM
  • 4.5.3.4 Evaluation of ICM
  • 4.6 A Revised Cache Model
  • 4.6.1 Introduction
  • 4.6.2 Theoretical assumptions
  • 4.6.3 Revision of Centering Rule 1 (pronoun rule)
  • 4.6.4 Integrating the cache model with centering algorithm
  • 4.6.5 Implementation of RICM
  • 4.6.6 A simplified version of RICM
  • 4.6.7 Evaluation of RICM
  • 4.6.8 Experiment
  • 4.6.8.1 Data
  • 4.6.8.2 Procedure
  • 4.6.8.3 Result
  • 4.6.8.4 Discussion
  • 4.7 Summary
  • Chapter Five SETTING PARAMETERS FOR CENTERING ANALYSIS ON CHINESE DISCOURSE
  • 5.1 Introduction
  • 5.2 Specifying the utterance unit
  • 5.2.1 Introduction
  • 5.2.2 What is an utterance?
  • 5.2.3 Utterance for centering analysis
  • 5.2.4 Intermediary summary
  • 5.3 Discourse segmentation
  • 5.3.1 The difficulty with discourse segmentation
  • 5.3.2 Problems arising from different segmentations
  • 5.3.3 Specifying discourse segment for Chinese
  • 5.3.3.1 Topic chain as discourse segment
  • 5.3.3.2 Topic continuity as discourse segment
  • 5.4 Ranking forward-looking centers in Chinese
  • 5.4.1 Related cross-linguistic work
  • 5.4.2 Topic as a grammatical concept
  • 5.4.3 Topic and reference
  • 5.4.4 The ranking hierarchy
  • 5.4.5 Other factors contributing to the salience of entities
  • 5.4.6 Ranking complex NPs
  • 5.5 Summary
  • Chapter Six GENERATING CHINESE ZERO ANAPHORS
  • 6.1 Introduction
  • 6.2 Previous approaches to generating (zero) anaphors
  • 6.3 Assumptions
  • 6.4 Corpus study
  • 6.4.1 Corpus and coding
  • 6.4.2 Results and analysis
  • 6.5 Developing zero anaphora generation algorithm
  • 6.5.1 Zero generation algorithm (Ⅰ)
  • 6.5.2 The privilege of transition pairs
  • 6.5.3 Zero generation algorithm (Ⅱ)
  • 6.5.4 Zero generation algorithm (Ⅲ)
  • 6.6 Summary
  • Chapter Seven COMPUTATION OF TRANSITION TYPES
  • 7.1 Introduction
  • 7.2 Transitions for modeling coherence
  • 7.3 The problem of inferable centers
  • 7.4 Inferable centers as bridging references
  • 7.5 Possible solutions to inferable centers
  • 7.5.1 Laurel Fais's proposal
  • 7.5.2 Extension of LFP
  • 7.5.2.1 Overestimation of complete shifts
  • 7.5.2.2 The "Cheapness" Principle by SHP
  • 7.5.2.3 Integrating LFP with SHP
  • 7.6 Summary
  • Chapter Eight CONCLUSION
  • 8.1 Major findings
  • 8.2 Limiatations
  • 8.3 Directions for further study
  • BIBLIOGRAPHY
  • 相关论文文献

    • [1].俄汉语语篇中“竞赛是战争”概念隐喻对比研究[J]. 林区教学 2015(11)
    • [2].时间词语在汉语语篇中的重要性考察[J]. 济源职业技术学院学报 2015(01)
    • [3].21世纪以来汉语语篇研究的现状与趋势[J]. 语言研究集刊 2019(01)
    • [4].印尼学生汉语语篇连接词语偏误研究[J]. 长春理工大学学报 2012(01)
    • [5].对外汉语语篇教学研究综述[J]. 海外华文教育 2017(03)
    • [6].汉语语篇连接成分研究[J]. 海外英语 2012(21)
    • [7].留学生汉语语篇回指的测试性评价构拟[J]. 海外华文教育 2011(04)
    • [8].论汉语语篇的基本单位和流水句的成因[J]. 语言学论丛 2014(01)
    • [9].英文语篇常见关系与汉语语篇之间的差异[J]. 智库时代 2019(28)
    • [10].构建汉语语篇学的基础和原则[J]. 烟台大学学报(哲学社会科学版) 2019(04)
    • [11].“对外汉语语篇语法”研究框架的探索[J]. 宁夏大学学报(人文社会科学版) 2014(01)
    • [12].缅怀前贤贡献 试论语音衔接——为纪念汉语语篇学奠基人黎锦熙而作[J]. 语言与翻译 2011(04)
    • [13].汉语语篇主题与段落结构模式研究[J]. 北方文学(下半月) 2012(05)
    • [14].汉语语篇中的插叙标记及其演变[J]. 汉语学报 2020(01)
    • [15].翻译汉语语篇人称代词显化研究——基于自建经济类文献语料库[J]. 汉语学习 2015(05)
    • [16].对外汉语语篇教学研究:回眸与思考[J]. 海外华文教育 2008(02)
    • [17].英语写作中汉语语篇思维模式的迁移论[J]. 黑龙江教育学院学报 2015(11)
    • [18].话题的连贯功能与汉英翻译[J]. 怀化学院学报 2015(03)
    • [19].汉语语篇次序衔接规律探析[J]. 文理导航(下旬) 2013(05)
    • [20].衔接理论在汉语语篇分析中的应用——以朱自清散文《背影》为例[J]. 青年文学家 2015(12)
    • [21].试论“成分同现结构”在汉语语篇中的衔接功能[J]. 淮北师范大学学报(哲学社会科学版) 2015(03)
    • [22].汉语语篇中态度资源的组篇功能研究[J]. 北京科技大学学报(社会科学版) 2014(04)
    • [23].汉语语篇中“倒装结构”的衔接力考察[J]. 淮北师范大学学报(哲学社会科学版) 2017(05)
    • [24].隐喻的汉语语篇衔接功能[J]. 成都师范学院学报 2017(10)
    • [25].留学生汉语语篇偏误研究综述[J]. 邵阳学院学报(社会科学版) 2010(02)
    • [26].语篇模式的“异”对大学英语写作的负面影响[J]. 海外英语 2015(18)
    • [27].汉语语篇积极话语分析初探[J]. 安徽文学(下半月) 2008(07)
    • [28].汉语语篇重复的分类[J]. 现代语文(语言研究版) 2008(11)
    • [29].中级水平韩国留学生汉语语篇回指偏误分析[J]. 海外华文教育 2012(04)
    • [30].汉语语篇节律类型及生成机制探析[J]. 齐齐哈尔大学学报(哲学社会科学版) 2009(04)

    标签:;  ;  ;  ;  

    汉语篇章零回指的解析与生成:一项基于语料的向心研究
    下载Doc文档

    猜你喜欢