语料库
1 复述定义
2 复述句的获取
* 基于同一个外文句子的,不同翻译
* 机器翻译中的测评句子
* 可比的新闻语料
* 自动化收集新闻(文章聚类)
- 从可比新闻中进一步抽取出复述句
- 句子聚类的方法
* 视为二元分类
*特征不容易找到,因为语言的复杂性,十分相似的句子,内容却相差很多
---
3 . 复述模板的获取
*基于字典的获取
- 基于WordNet等
- 将词典中定义的某种或者某些词义关系视为复述关系
- 将词在词典中的解释视为复述
* 基于锚点的方法
- 将复述句对存在的相同的词和短语抽取,这些词视为锚点,并对齐
* 基于pivot的复述
* 适合大规模的抽取复述句子对
- 将一组复述短语对于的公共外文翻译称为这组复述短语的pivot
* 基于分布假设的复述抽取
* 出现在相似上下文的词的意思相近
- 输入种子单词
3. 复述的生成
* 基于规则的生成
* 基于词典的生成
* 基于NLG的方法
* 基于MT的方法
* 面向不同任务的方法
4 研究方向
* 蕴含
* A可以推到出B
- 复述是蕴含的特例:相互蕴含的句子是复述