dialog system, table-to-text, text generation, summarization, Knowledge Base

github2022-03-30 更新2024-05-31 收录

下载链接：

https://github.com/lipiji/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含多个用于NLP研究的数据集，涵盖对话系统、表格到文本生成、文本生成、摘要生成和知识库等多个领域。

This repository encompasses a variety of datasets tailored for NLP research, spanning multiple domains such as dialogue systems, table-to-text generation, text generation, summarization, and knowledge bases.

创建时间：

2019-10-12

原始信息汇总

对话系统数据集

中文数据集

微博对话数据集：Weibo Conversation Datasets
豆瓣对话数据集：MultiTurnResponseSelection
豆瓣-20k：Restoration-200K datasets
微博情感对话数据集：Challenge2017
对话中的个人资料一致性数据集：KvPI
对话的灰度数据集：grayscale_data_release
性别特定聊天数据集：Stylistic_Dataset

英文数据集

Twitter对话数据集：chat_corpus
DailyDialog：DailyDialog
PersonaChat：personachat_self_original
OpenSubtitles：OpenSubtitles
MultiWOZ：MultiWOZ
Cornell电影对话语料库：Cornell Movie-Dialogs_Corpus
Topical-Chat：alexa-prize-topical-chat-dataset
Switchboard语料库：Switchboard-Corpus
对话NLI：dialogue_nli
电影对话Reddit：babi
Ubuntu对话数据集：ubuntu-ranking-dataset-creator
EmpatheticDialogues：EmpatheticDialogues
Wizard of Wikipedia：wizard_of_wikipedia
常识对话数据集：commonsense_conversation_dataset
MuTual：MuTual

表格到文本数据集

ToTTo数据集：ToTTo

文本生成数据集

中文数据集

诗歌数据集：chinese-poetry
对联数据集：couplet-dataset

摘要生成数据集

多文档摘要（MDS）

DUC：DUC
TAC：TAC
RAMDS：ra-mds

单文档摘要（SDS）

中文数据集

LCSTS：LCSTS

英文数据集

Gigaword：Gigaword
CNN/Daily Mail：cnn-dailymail
科学摘要数据集：ScientificSummarizationDataSets
Newsroom：summari.es
BigPatent：BigPatent
XSum：XSum-EMNLP18-Summary-Data-Original

知识库数据集

ownthink：KnowledgeGraphData

搜集汇总

数据集介绍

构建方式

该数据集的构建基于多个公开的对话系统、表格到文本生成、文本生成、摘要生成以及知识库领域的资源。通过整合来自不同平台和研究的对话数据集，如微博、豆瓣、Twitter等，数据集涵盖了多种语言和场景。表格到文本生成部分则依赖于ToTTo数据集，而文本生成部分则包含了中文诗歌和对联的数据集。摘要生成部分则从DUC、TAC等权威来源获取多文档和单文档摘要数据。知识库部分则基于ownthink的知识图谱数据。

特点

该数据集的特点在于其多样性和广泛性，涵盖了从社交媒体对话到知识图谱的多种数据类型。对话系统部分包含了情感对话、性别特定对话等多种场景，表格到文本生成部分则专注于结构化数据的自然语言转换。文本生成部分提供了丰富的诗歌和对联数据，摘要生成部分则包含了从新闻到科学文献的多种摘要类型。知识库部分则提供了大规模的中文知识图谱数据，支持复杂的知识推理任务。

使用方法

该数据集的使用方法灵活多样，适用于多种自然语言处理任务。对话系统部分可用于训练和评估对话生成模型，表格到文本生成部分则适用于结构化数据的自然语言生成任务。文本生成部分可用于诗歌和对联的自动生成研究，摘要生成部分则支持从单文档到多文档的摘要生成任务。知识库部分则可用于知识推理、问答系统等任务的训练和评估。用户可以根据具体任务需求，选择相应的数据集进行下载和使用。

背景与挑战

背景概述

在自然语言处理领域，对话系统、表格到文本生成、文本生成、摘要生成以及知识库等研究方向一直是学术界和工业界关注的焦点。这些数据集由多个知名研究机构和学者共同创建，涵盖了从社交媒体对话到电影对白、从诗歌创作到科学文献摘要的广泛内容。例如，Weibo和Douban数据集由腾讯AI实验室和清华大学等机构发布，旨在解决中文社交媒体对话的多样性和复杂性。这些数据集的创建时间跨度较大，最早可追溯到2010年左右，随着深度学习技术的进步，数据集的质量和规模也在不断提升。这些数据集不仅推动了对话系统、文本生成等领域的技术进步，还为跨语言、跨文化的自然语言处理研究提供了丰富的资源。

当前挑战

尽管这些数据集在自然语言处理领域取得了显著进展，但仍面临诸多挑战。首先，对话系统数据集需要解决上下文依赖性强、多轮对话复杂性高的问题，尤其是在跨语言和跨文化场景下，如何保持对话的一致性和连贯性仍是一个难题。其次，表格到文本生成任务要求模型能够准确理解结构化数据并将其转化为自然语言，这对模型的语义理解和生成能力提出了更高要求。此外，文本生成和摘要生成任务中，如何平衡生成内容的准确性和多样性，避免生成重复或无意义的内容，也是当前研究的难点。最后，知识库的构建和维护需要处理海量数据的整合和更新，确保知识的时效性和准确性，这对数据集的构建和管理提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，对话系统数据集如Weibo和Douban被广泛应用于训练和评估对话生成模型。这些数据集包含了大量的社交媒体对话，能够帮助研究者深入理解中文语境下的对话结构和情感表达。通过分析这些数据，研究者可以开发出更加智能和人性化的对话系统。

实际应用

在实际应用中，这些数据集被用于开发智能客服、虚拟助手和社交媒体机器人。通过利用这些数据集，企业能够提供更加个性化和高效的客户服务，提升用户体验。例如，基于Weibo Emotional Conversation Dataset的情感分析技术，可以实时监测用户情绪，从而调整对话策略。

衍生相关工作

这些数据集衍生了许多经典的研究工作，如基于MultiWOZ的多轮对话系统研究和基于PersonaChat的个性化对话生成研究。这些工作不仅在学术界引起了广泛关注，也在工业界得到了实际应用，推动了对话系统技术的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集