如何抽取语料库


1. 复述短语的获取

*  获取短语级别的复述实例

1.1 基于单语平行语料库的复述短语抽取

  • 含有大规模复述句对的语料库,对语料库的句子进行词对齐和短语对齐,将对齐的短语作为复述短语抽取出来
  • 对同一外文的不同英文翻译

1.2 基于单语可比语料库的复述短语抽取

* 两片文本可比较,指两篇文本的内容相似但是不是一一对应的关系

  • 例如,同一时间的新闻报道

1.3 基于双语平行语料库的复述短语抽取(pivot方法)

* 若两有英文短语(e1,e2)和相同外文(中文)短语c对齐,则(e1和e2)便可能是一对复述的短语

1.4 基于自动词聚类的复述词抽取

  • 基于上下文的分布式假设: 若两个词总倾向于出现在相同的上下文语境中,则两个词的意思相同

1.5 从词典注释的复述短语中抽取

1.6 基于用户查询聚类的复述短语


2. 复述的生成

2.1 基于规则

* 基于人工规则

* 基于自动抽取

  • 从语料中抽取复述模式,然后应用复述模式进行复述生成

  • 复述规则例子

    • 改变副词位置 * 复合句拆分
    • 基于复述模式修改 

* 基于词典

  • 本质是将句子的词汇替换为同义词,满足上下文
  • 从预定义的词典提取候选替代词,例如wordNet
  • 缺点适合给定上下文的替代词
    • 使用语言模型(google 5-gram)
    • 进行词义消歧

* 自然语言生产的方法

  • 输入非自然语言,生产自然语言

* 基于机器翻译

* 视为单语言翻译过程

* 基于Pivot的方法

  • 将句子 s翻译到另一种语言,然后再翻译回来

* deep learning的方法


思路

* 单语语库

  • 给定话题和事件文档

  • 对文档聚类

  • 句子聚类
  • 对于聚类的句子判断相似

* 找出复述句子对,或者组

* 双语平行库

  • 对于pivot,与同一个外文短语对齐的多个短语可能有同样的意义
  • 添加语法约束,两个复述短语应该具有相同的句法类型

* 大规模web语料(准确率低)

  • 出现在相似的上下文的词语/短语/模式的意义 相似

results matching ""

    No results matching ""