复述模型
* 语料库
PG算法
* quora上面的回答
* gihub上的paraphrase项目
https://github.com/search?utf8=%E2%9C%93&q=+paraphrase&type=
PG思路
1 . 语料库的生成
* 文献之间相互的引用存在复述
* 对同一个外文的引用也是复述
* 对同一个文献的引用是复述
2 .思路
* 聚合文章(聚类):可以根据关键字+摘要的形式
* 在文章中根据引用和相似度,抽取语聊(复述): 关于某个主题的复述
* 语聊库应该可以增加和变化(根据主题的不同)
* 生成语料库集合,训练模型
3. 思考
* 可以使用两个网络:专业知识网络:生成专业相关的复述(类似与做summarization)
* 文学网络,生成句子润色的网络
已经存在的语料库
微软的Microsoft Research Paraphrase Corpus (MSRP)数据集
- 综述文章
- APPLYING DEEP LEARNING TO ANSWER SELECTION: A STUDY AND AN OPEN TASK
* 斯坦福的文章
The Stanford Natural Language Inference (SNLI) Corpus:The Stanford Natural Language Processing Group
× http://www.jeyzhang.com/cnn-apply-on-modelling-sentence.html
---
语料库
http://blog.just4fun.site/NLP-corpus.html
google搜索的语料库结果
https://opendata.stackexchange.com/questions/6094/paraphrase-data-sets
* Paraphrase data sets
- PPDB
- MRPC
* P4P
paraphrases for plagiarism detection
http://clic.ub.edu/corpus/en/paraphrases-en#
* WRPA
* Paraphrased Grouped Opinosis Subcorpus
* 斯坦福大学
Entailment corpus: http://nlp.stanford.edu/projects/snli/
* SemEVAL
SemEval tasks: http://alt.qcri.org/semeval2015/index.php?id=tasks
* SICK dataset: http://clic.cimec.unitn.it/composes/sick.html
* QUORA
Quora Question Pairs Dataset
* 数据集合
github上的韩语数据 https://github.com/tmu-nlp/paraphrase-corpus
- 塞尔维亚
- The Serbian Paraphrase Corpus
https://github.com/vukbatanovic/paraphrase.sr
- spam语料
- Paraphrased OPinion Spam (POPS) Corpus v1.0
https://github.com/jacobis/paraphrased-opinion-spam
* 句子相关性 https://github.com/tmu-nlp/paraphrase-corpus
* sem-task-2015
http://alt.qcri.org/semeval2015/task1/
* paraphrase的资料
http://alt.qcri.org/semeval2015/task1/