NLP-Datasets
收藏github2020-02-20 更新2024-05-31 收录
下载链接:
https://github.com/kingsaint/NLP-Datasets
下载链接
链接失效反馈官方服务:
资源简介:
这是一个尝试汇编不同NLP任务可用数据集的列表,目前仍在进行中。
This is an attempt to compile a list of datasets available for various NLP tasks, which is still a work in progress.
创建时间:
2018-03-01
原始信息汇总
NLP-Datasets 数据集概述
Question Answering
- DROP Allen NLP: https://allennlp.org/drop.html
- Google Natural Questions: https://ai.google.com/research/NaturalQuestions
- Stanford SQuAD 2.0: https://rajpurkar.github.io/SQuAD-explorer/
- Stanford SQuAD: https://rajpurkar.github.io/SQuAD-explorer/
- Microsoft MARCO: http://www.msmarco.org/dataset.aspx
- CMU RACE: http://www.cs.cmu.edu/~glai1/data/race/
- University of Washington TriviaQA: http://nlp.cs.washington.edu/triviaqa/
- Microsoft WikiQA: https://www.microsoft.com/en-us/download/details.aspx?id=52419
- CNN/ Dailymail: https://cs.nyu.edu/~kcho/DMQA/
- NewsQA: https://datasets.maluuba.com/NewsQA/dl
- TREC: http://trec.nist.gov/data/qamain.html
Conversational QA
- CoQA: https://stanfordnlp.github.io/coqa/
- CSQA: https://amritasaha1812.github.io/CSQA/download/
- QuAC: https://quac.ai
Dialog Generation
- Dialog Generation Datasets: https://breakend.github.io/DialogDatasets/
Knowledge Graph Completion
- FB15K (FreeBase): https://github.com/ttrouill/complex/tree/master/datasets
- WN18 (WordNet): https://github.com/ttrouill/complex/tree/master/datasets
Machine Translation
- WMT: http://www.statmt.org/wmt16/translation-task.html#download
Sentiment Analysis
- IMDb Movie Review: http://ai.stanford.edu/~amaas/data/sentiment/
- Movie review data (Cornell): http://www.cs.cornell.edu/people/pabo/movie-review-data/
- Yelp dataset: https://www.yelp.com/dataset/challenge
Linked Open Data
- RDF data in HDT format: http://www.rdfhdt.org/datasets/
- Wikidata: https://www.wikidata.org/wiki/Wikidata:Database_download
Image Caption Generation
- MS COCO: http://cocodataset.org/#home
- Flikr8K: http://nlp.cs.illinois.edu/HockenmaierGroup/Framing_Image_Description/KCCA.html
- Flikr30K: http://shannon.cs.illinois.edu/DenotationGraph/
- PASCAL: http://vision.cs.uiuc.edu/pascal-sentences/
- Visual Genome: http://visualgenome.org
- InstaPIC: https://github.com/cesc-park/attend2u
- YFCC100M: http://yfcc100m.appspot.com
Visual QA
- VQA: http://visualqa.org/download.html
Language Grounding / Visual Reasoning
- CLEVR: https://cs.stanford.edu/people/jcjohns/clevr/
- NLVR: http://lic.nlp.cornell.edu/nlvr/
- FigureQA: https://datasets.maluuba.com/FigureQA
Visual Commonsense Reasoning
- VCR: https://visualcommonsense.com/download/
搜集汇总
数据集介绍

构建方式
NLP-Datasets数据集致力于汇总整理各类自然语言处理任务中可用的数据集资源。该数据集通过广泛搜集和整合,构建起一个涵盖多种NLP任务的数据集列表,旨在为研究者提供便捷的数据获取途径。
使用方法
用户可通过访问数据集提供的链接直接获取所需数据。此外,数据集页面提供了详细的任务分类,方便用户根据具体任务快速定位相关数据集。用户在使用时,需遵循各数据集的使用条款和版权声明。
背景与挑战
背景概述
NLP-Datasets是一个旨在整合不同自然语言处理任务可用数据集的列表,其创建旨在为NLP研究者和开发者提供一个全面的数据资源指南。该数据集的创建并非出自单一研究人员或机构之手,而是由社区共同努力推进的项目,反映了自然语言处理领域内的多样性和广泛性。自推出以来,NLP-Datasets在促进相关领域的模型训练、算法研究和性能评估等方面发挥了重要作用,对推动NLP技术进步具有显著影响。
当前挑战
尽管NLP-Datasets提供了丰富的数据资源,但在构建和使用过程中仍面临诸多挑战。首先,数据集的多样性和异质性使得整合和标准化工作充满挑战。其次,不断涌现的新NLP任务需要新的数据集,这要求持续更新和维护该列表。此外,数据集的质量、覆盖范围和平衡性也是当前面临的挑战,它们直接关系到基于这些数据集训练出的模型的性能和泛化能力。
常用场景
经典使用场景
在自然语言处理领域,NLP-Datasets数据集的构建旨在为各类NLP任务提供全面的数据资源列表。其经典使用场景主要在于为研究者和开发者提供用于训练、测试和评估各类NLP模型的基准数据集,如问答系统、对话生成、知识图谱补全等任务,从而推动NLP技术的进步与创新。
解决学术问题
该数据集解决了学术研究中数据集分散、获取困难的问题,为学术研究提供了丰富的数据支持。例如,在问答系统任务中,包含的SQuAD、CoQA等数据集,为评估模型在理解长篇文本和生成连贯回答方面的能力提供了标准。在知识图谱补全任务中,FB15K和WN18数据集为研究者在知识推理和图谱嵌入方面的研究提供了实验基础。
实际应用
NLP-Datasets数据集在实际应用中极为广泛,支撑了包括机器翻译、情感分析、视觉问答等在内的多种自然语言处理技术的开发与应用。例如,WMT数据集为机器翻译模型的训练提供了多语言对照文本,而IMDb和Yelp数据集则为情感分析模型提供了海量的文本情感标签,助力了商业智能和用户行为分析的发展。
数据集最近研究
最新研究方向
NLP-Datasets数据集涵盖了自然语言处理领域众多任务相关的数据集,近期研究主要聚焦于问答系统、对话生成、知识图谱补全、机器翻译、情感分析、图像标注生成、视觉问答以及视觉推理等前沿方向。在问答系统领域,研究着重于理解复杂问题的语义并检索精准答案;对话生成研究则致力于创建更为自然的对话模型;知识图谱补全旨在通过图结构数据提高实体间关系的预测准确性;机器翻译领域则追求更精准的跨语言信息转换;情感分析关注于从文本中准确提取情感倾向;图像标注生成研究致力于描述图像内容;视觉问答和视觉推理则结合了语言和视觉处理,以理解图像中的情境并作出推理。这些研究方向不断推动着自然语言处理技术的进步,为相关应用带来深远影响。
以上内容由遇见数据集搜集并总结生成



