NLP-Datasets

github2020-02-20 更新2024-05-31 收录

下载链接：

https://github.com/kingsaint/NLP-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个尝试汇编不同NLP任务可用数据集的列表，目前仍在进行中。

This is an attempt to compile a list of datasets available for various NLP tasks, which is still a work in progress.

创建时间：

2018-03-01

原始信息汇总

NLP-Datasets 数据集概述

Question Answering

DROP Allen NLP: https://allennlp.org/drop.html
Google Natural Questions: https://ai.google.com/research/NaturalQuestions
Stanford SQuAD 2.0: https://rajpurkar.github.io/SQuAD-explorer/
Stanford SQuAD: https://rajpurkar.github.io/SQuAD-explorer/
Microsoft MARCO: http://www.msmarco.org/dataset.aspx
CMU RACE: http://www.cs.cmu.edu/~glai1/data/race/
University of Washington TriviaQA: http://nlp.cs.washington.edu/triviaqa/
Microsoft WikiQA: https://www.microsoft.com/en-us/download/details.aspx?id=52419
CNN/ Dailymail: https://cs.nyu.edu/~kcho/DMQA/
NewsQA: https://datasets.maluuba.com/NewsQA/dl
TREC: http://trec.nist.gov/data/qamain.html

Conversational QA

CoQA: https://stanfordnlp.github.io/coqa/
CSQA: https://amritasaha1812.github.io/CSQA/download/
QuAC: https://quac.ai

Dialog Generation

Dialog Generation Datasets: https://breakend.github.io/DialogDatasets/

Knowledge Graph Completion

FB15K (FreeBase): https://github.com/ttrouill/complex/tree/master/datasets
WN18 (WordNet): https://github.com/ttrouill/complex/tree/master/datasets

Machine Translation

WMT: http://www.statmt.org/wmt16/translation-task.html#download

Sentiment Analysis

IMDb Movie Review: http://ai.stanford.edu/~amaas/data/sentiment/
Movie review data (Cornell): http://www.cs.cornell.edu/people/pabo/movie-review-data/
Yelp dataset: https://www.yelp.com/dataset/challenge

Linked Open Data

RDF data in HDT format: http://www.rdfhdt.org/datasets/
Wikidata: https://www.wikidata.org/wiki/Wikidata:Database_download

Image Caption Generation

MS COCO: http://cocodataset.org/#home
Flikr8K: http://nlp.cs.illinois.edu/HockenmaierGroup/Framing_Image_Description/KCCA.html
Flikr30K: http://shannon.cs.illinois.edu/DenotationGraph/
PASCAL: http://vision.cs.uiuc.edu/pascal-sentences/
Visual Genome: http://visualgenome.org
InstaPIC: https://github.com/cesc-park/attend2u
YFCC100M: http://yfcc100m.appspot.com

Visual QA

VQA: http://visualqa.org/download.html

Language Grounding / Visual Reasoning

CLEVR: https://cs.stanford.edu/people/jcjohns/clevr/
NLVR: http://lic.nlp.cornell.edu/nlvr/
FigureQA: https://datasets.maluuba.com/FigureQA

Visual Commonsense Reasoning

VCR: https://visualcommonsense.com/download/

搜集汇总

数据集介绍

构建方式

NLP-Datasets数据集致力于汇总整理各类自然语言处理任务中可用的数据集资源。该数据集通过广泛搜集和整合，构建起一个涵盖多种NLP任务的数据集列表，旨在为研究者提供便捷的数据获取途径。

使用方法

背景与挑战

背景概述

NLP-Datasets是一个旨在整合不同自然语言处理任务可用数据集的列表，其创建旨在为NLP研究者和开发者提供一个全面的数据资源指南。该数据集的创建并非出自单一研究人员或机构之手，而是由社区共同努力推进的项目，反映了自然语言处理领域内的多样性和广泛性。自推出以来，NLP-Datasets在促进相关领域的模型训练、算法研究和性能评估等方面发挥了重要作用，对推动NLP技术进步具有显著影响。

当前挑战

尽管NLP-Datasets提供了丰富的数据资源，但在构建和使用过程中仍面临诸多挑战。首先，数据集的多样性和异质性使得整合和标准化工作充满挑战。其次，不断涌现的新NLP任务需要新的数据集，这要求持续更新和维护该列表。此外，数据集的质量、覆盖范围和平衡性也是当前面临的挑战，它们直接关系到基于这些数据集训练出的模型的性能和泛化能力。

常用场景

经典使用场景

在自然语言处理领域，NLP-Datasets数据集的构建旨在为各类NLP任务提供全面的数据资源列表。其经典使用场景主要在于为研究者和开发者提供用于训练、测试和评估各类NLP模型的基准数据集，如问答系统、对话生成、知识图谱补全等任务，从而推动NLP技术的进步与创新。

解决学术问题

该数据集解决了学术研究中数据集分散、获取困难的问题，为学术研究提供了丰富的数据支持。例如，在问答系统任务中，包含的SQuAD、CoQA等数据集，为评估模型在理解长篇文本和生成连贯回答方面的能力提供了标准。在知识图谱补全任务中，FB15K和WN18数据集为研究者在知识推理和图谱嵌入方面的研究提供了实验基础。

实际应用

NLP-Datasets数据集在实际应用中极为广泛，支撑了包括机器翻译、情感分析、视觉问答等在内的多种自然语言处理技术的开发与应用。例如，WMT数据集为机器翻译模型的训练提供了多语言对照文本，而IMDb和Yelp数据集则为情感分析模型提供了海量的文本情感标签，助力了商业智能和用户行为分析的发展。

数据集最近研究