可比新闻语料

* 输入关键字

  • 获取新闻语料
  • 获取可比新闻 * 获取可比句

* 新闻语料的获取

  • 从互联网爬取网页
  • 提取网页正文和新闻文本去重
  • Nutch

* 可比新闻的获取

  • 从新闻语料中获取可比新闻

  • 候选提取

    • 关键字和关键信息
  • 候选过滤
    • 除去重复
    • 时间间隔
    • 文本内容相似性

* 可比句的提取


* 从可比句中提取复述候选语言


* 二分类算法,进行复述的确认

results matching ""

    No results matching ""