语料库


1 复述定义


2 复述句的获取

* 基于同一个外文句子的,不同翻译

* 机器翻译中的测评句子

* 可比的新闻语料

* 自动化收集新闻(文章聚类)

  • 从可比新闻中进一步抽取出复述句
  • 句子聚类的方法

* 视为二元分类

*特征不容易找到,因为语言的复杂性,十分相似的句子,内容却相差很多

---

3 . 复述模板的获取

*基于字典的获取

  • 基于WordNet等
  • 将词典中定义的某种或者某些词义关系视为复述关系
  • 将词在词典中的解释视为复述

* 基于锚点的方法

  • 将复述句对存在的相同的词和短语抽取,这些词视为锚点,并对齐

* 基于pivot的复述

*  适合大规模的抽取复述句子对

  • 将一组复述短语对于的公共外文翻译称为这组复述短语的pivot

* 基于分布假设的复述抽取

* 出现在相似上下文的词的意思相近

  • 输入种子单词

3. 复述的生成

* 基于规则的生成

* 基于词典的生成

* 基于NLG的方法

* 基于MT的方法

* 面向不同任务的方法

4 研究方向

* 蕴含

* A可以推到出B

  • 复述是蕴含的特例:相互蕴含的句子是复述

* 词替换

results matching ""

    No results matching ""