如何抽取语料库
1. 复述短语的获取
* 获取短语级别的复述实例
1.1 基于单语平行语料库的复述短语抽取
- 含有大规模复述句对的语料库,对语料库的句子进行词对齐和短语对齐,将对齐的短语作为复述短语抽取出来
- 对同一外文的不同英文翻译
1.2 基于单语可比语料库的复述短语抽取
* 两片文本可比较,指两篇文本的内容相似但是不是一一对应的关系
- 例如,同一时间的新闻报道
1.3 基于双语平行语料库的复述短语抽取(pivot方法)
* 若两有英文短语(e1,e2)和相同外文(中文)短语c对齐,则(e1和e2)便可能是一对复述的短语
1.4 基于自动词聚类的复述词抽取
- 基于上下文的分布式假设: 若两个词总倾向于出现在相同的上下文语境中,则两个词的意思相同
1.5 从词典注释的复述短语中抽取
1.6 基于用户查询聚类的复述短语
2. 复述的生成
2.1 基于规则
* 基于人工规则
* 基于自动抽取
从语料中抽取复述模式,然后应用复述模式进行复述生成
复述规则例子
- 改变副词位置 * 复合句拆分
- 基于复述模式修改
* 基于词典
- 本质是将句子的词汇替换为同义词,满足上下文
- 从预定义的词典提取候选替代词,例如wordNet
- 缺点适合给定上下文的替代词
- 使用语言模型(google 5-gram)
- 进行词义消歧
* 自然语言生产的方法
- 输入非自然语言,生产自然语言
* 基于机器翻译
* 视为单语言翻译过程
* 基于Pivot的方法
- 将句子 s翻译到另一种语言,然后再翻译回来
* deep learning的方法
思路
* 单语语库
给定话题和事件文档
对文档聚类
- 句子聚类
- 对于聚类的句子判断相似
* 找出复述句子对,或者组
* 双语平行库
- 对于pivot,与同一个外文短语对齐的多个短语可能有同样的意义
- 添加语法约束,两个复述短语应该具有相同的句法类型
* 大规模web语料(准确率低)
- 出现在相似的上下文的词语/短语/模式的意义 相似