NLP-Datasets

github2020-04-12 更新2024-05-31 收录

下载链接：

https://github.com/aitor-mir/NLP-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

按任务分类的NLP数据集精选集合

A curated collection of NLP datasets categorized by tasks

创建时间：

2019-06-04

原始信息汇总

文本摘要数据集

Opinosis dataset
- 类型：产品评论语料库
- 规模：51篇文章
- 描述：包含从用户评论中提取的句子，针对特定主题。
Scisumm-corpus
- 类型：科学文献摘要语料库
- 描述：包含训练和测试主题，用于开发计算语言学摘要系统。
BBC新闻摘要数据集
- 类型：新闻摘要数据集
- 来源：Kaggle
Wikihow数据集
- 类型：大型数据集
- 规模：超过200,000对长序列
实时博客摘要语料库
- 类型：实时博客文章
- 来源：《卫报》和《BBC》实时博客
TIPSTER数据集
- 类型：科学论文语料库
- 规模：183篇论文
- 描述：出现在计算语言学（ACL）赞助的会议上的论文。
Reddit数据集
- 类型：抽象摘要数据集
- 描述：适合使用深度学习进行抽象摘要，包含Reddit语料库的帖子。

对话数据集

Ubuntu对话语料库
- 类型：大型数据集
- 描述：用于非结构化多轮对话系统研究。
Lets Go数据集
- 类型：人机对话数据集
- 描述：包含使用Lets Go对话系统的完整数据集。
对话状态跟踪挑战2 & 3数据集
- 类型：对话状态跟踪数据集
- 描述：专注于提高口语对话系统状态跟踪的最新技术。
MultiWOZ语料库
- 类型：多领域任务导向对话数据集
- 规模：10,000对话
- 描述：完全标记的人-人对话，涵盖多个领域和主题。
Frames语料库
- 类型：语义框架和知识库操作数据集
- 描述：标记的语义框架和在知识库上采取的操作。
Loqui人-人对话语料库
- 类型：电话交易转录
- 规模：82对话
- 描述：包含对话行为、邻接对、话语单元和书籍讨论中的指称表达的特定性注释。
Microsoft研究社交媒体对话语料库
- 类型：社交媒体对话数据集
- 规模：4,232三步对话片段
- 描述：从Twitter日志中提取的12,696条Tweet ID。
USENET语料库
- 类型：公共USENET帖子集合
- 规模：47,860英语新闻组
- 描述：收集于2005年10月至2011年1月。
电影对话数据集及其他Facebook研究数据集
- 类型：电影对话及其他数据集
- 描述：来自Facebook研究的数据集。

搜集汇总

数据集介绍

构建方式

NLP-Datasets数据集是针对自然语言处理任务而精心策划的数据集集合。该数据集的构建采取了按任务类型分类的方式，涵盖了文本摘要、对话系统等多个领域，旨在为研究者提供丰富多样的训练和测试资源。例如，文本摘要领域包含了从产品评论中提取的句子集合，以及科学论文摘要等。对话领域则包括了多轮对话的记录，以及人类对话者的语义框架标注等。

特点

该数据集集合的一大特点是涵盖了广泛的NLP任务，且每个任务下都有多个数据集可供选择，体现了其多样性和全面性。数据集包含了不同来源和主题的文本，既有来自社交媒体的实时讨论，也有学术领域的专业论文摘要。此外，这些数据集通常带有详细的标注信息，如语义框架、对话状态等，为相关研究提供了宝贵的基础数据。

使用方法

使用NLP-Datasets数据集时，研究者可以根据自身的任务需求，选择相应的数据集进行模型训练和评估。每个数据集的获取方式在其详情页面中有明确说明，通常涉及从GitHub或相关网站下载。对于需要特定格式或预处理的数据集，用户可能需要执行相应的数据清洗和格式转换操作。数据集的详细文档和示例代码也常常提供，以帮助用户更高效地利用这些资源。

背景与挑战

背景概述

NLP-Datasets是一个经过精心策划的自然语言处理（NLP）任务数据集集合，旨在为研究人员和开发者提供针对特定任务的丰富数据资源。该数据集涵盖了文本摘要、对话系统等多个NLP领域，其创建并非由单一机构或研究人员主导，而是汇集了众多研究者的成果，自诞生以来，对推动NLP领域的学术研究和技术应用产生了显著影响。

当前挑战

尽管NLP-Datasets为研究提供了宝贵的资源，但其在构建和应用过程中亦面临诸多挑战。其中包括数据集的多样性、标注质量、以及跨任务和跨领域的适应性等问题。此外，如何确保数据集的公平性和无偏见性，以及如何处理大规模数据集的计算资源需求，都是当前研究者和开发者需要解决的难题。

常用场景

经典使用场景

在自然语言处理领域，NLP-Datasets数据集广泛用于文本摘要与对话系统的研究。该数据集包含多个子数据集，如Opinosis dataset与Scisumm-corpus，它们为文本摘要任务提供了丰富的训练与测试资源，尤其是对于新闻摘要和科学论文摘要的研究。此外，BBC news summaries dataset和Wikihow dataset等则提供了多样化的文本来源，有利于模型的泛化能力的提升。

衍生相关工作

基于NLP-Datasets数据集的研究衍生出了多项经典工作，如多轮对话状态跟踪技术的进步、深度学习在文本摘要中的应用研究等。这些工作推动了自然语言处理领域的理论发展和技术应用，对构建更智能的语言模型和对话系统具有重要的意义。

数据集最近研究