复述模型


* 语料库

PG算法

* quora上面的回答

https://www.quora.com/How-do-I-build-a-tool-for-generating-paraphrases-of-a-given-sentence-with-deep-learning

* gihub上的paraphrase项目

https://github.com/search?utf8=%E2%9C%93&q=+paraphrase&type=


PG思路

1 . 语料库的生成

* 文献之间相互的引用存在复述

* 对同一个外文的引用也是复述

* 对同一个文献的引用是复述

2 .思路

* 聚合文章(聚类):可以根据关键字+摘要的形式

* 在文章中根据引用和相似度,抽取语聊(复述): 关于某个主题的复述

* 语聊库应该可以增加和变化(根据主题的不同)

* 生成语料库集合,训练模型

3. 思考

* 可以使用两个网络:专业知识网络:生成专业相关的复述(类似与做summarization)

* 文学网络,生成句子润色的网络


已经存在的语料库




  • 综述文章
  • APPLYING DEEP LEARNING TO ANSWER SELECTION: A STUDY AND AN OPEN TASK

*  斯坦福的文章

The Stanford Natural Language Inference (SNLI) Corpus:The Stanford Natural Language Processing Group

× http://www.jeyzhang.com/cnn-apply-on-modelling-sentence.html

---

语料库

http://blog.just4fun.site/NLP-corpus.html


google搜索的语料库结果

https://opendata.stackexchange.com/questions/6094/paraphrase-data-sets

* Paraphrase data sets

  • PPDB
  • MRPC

* P4P

paraphrases for plagiarism detection

http://clic.ub.edu/corpus/en/paraphrases-en#

* WRPA

* Paraphrased Grouped Opinosis Subcorpus

* 斯坦福大学

Entailment corpus: http://nlp.stanford.edu/projects/snli/

* SemEVAL

SemEval tasks: http://alt.qcri.org/semeval2015/index.php?id=tasks

* SICK dataset: http://clic.cimec.unitn.it/composes/sick.html

* QUORA

Quora Question Pairs Dataset

* 数据集合

 github上的韩语数据   https://github.com/tmu-nlp/paraphrase-corpus

  • 塞尔维亚
  • The Serbian Paraphrase Corpus

https://github.com/vukbatanovic/paraphrase.sr

  • spam语料
  • Paraphrased OPinion Spam (POPS) Corpus v1.0

https://github.com/jacobis/paraphrased-opinion-spam

* 句子相关性 https://github.com/tmu-nlp/paraphrase-corpus


* sem-task-2015

http://alt.qcri.org/semeval2015/task1/

* paraphrase的资料

http://alt.qcri.org/semeval2015/task1/


chinese语料库-from baidu

https://github.com/PaddlePaddle/Paddle/tree/develop/paddle

results matching ""

    No results matching ""