NLCorpora

github2025-01-01 更新2025-01-15 收录

下载链接：

https://github.com/Lafitte1573/NLCorpora

下载链接

链接失效反馈

官方服务：

资源简介：

本项目专门盘点自然语言生成（NLG）领域的高质量中文数据集。为方便下载与使用，项目特地提供了各数据集的网盘链接（网盘中的数据集与原数据集完全一致，缓存在网盘中只是为了省去繁琐的数据申请、科学上网等过程）。

This project specializes in curating high-quality Chinese datasets in the field of Natural Language Generation (NLG). To facilitate easy download and usage, it provides cloud storage links for each dataset. The datasets hosted on the cloud are completely consistent with their original versions; caching them here is only to eliminate the cumbersome processes of data application and circumventing internet access restrictions.

创建时间：

2024-12-20

原始信息汇总

NLCorpora 数据集概述

文本摘要（Document/Text Summarization）

CLTS

论文：CLTS: A Chinese Long Text Summarization Dataset
会议：NLPCC 2020
简介：CLTS 是一个新的中文长文本摘要数据集，提取自中国新闻网站 ThePaper.cn。该数据集的最终版本包含超过 180,000 个长序列对，其中每篇文章由多个段落组成，每篇摘要由多个句子组成。
标签：新闻摘要，长文摘要
下载链接：夸克网盘

LCSTS

论文：LCSTS: A Large Scale Chinese Short Text Summarization Dataset
会议：EMNLP 2015
简介：属于中文文本摘要的经典数据集，是一个由中国微博网站新浪微博构建并向公众发布的大型中文短文本摘要数据集。该语料库由 200 多万篇真实的中文短文本组成，每个文本的作者都会给出简短的摘要。
标签：短文摘要
下载链接：夸克网盘

对话摘要（Dialogue/Conversation Summarization）

客服对话摘要

CSDS

论文：CSDS: A Fine-Grained Chinese Dataset for Customer Service Dialogue Summarization
会议：EMNLP 2021
简介：一个高质量中文客服对话摘要数据集。在 CSDS 中，每个对话标注出三种不同类型的摘要：1) 总体总结：总结了整个对话的主要信息。2) 用户摘要：关注于总结用户的主诉。3) 客服摘要：侧重于总结客服的响应。
标签：对话摘要，面向角色的对话摘要（Role-oriented DS），特殊领域对话摘要
下载链接：夸克网盘

医学对话摘要

IMCS-MRG

论文：CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark
期刊：Arxiv 2022
简介：中国生物医学语言理解评估基准（Chinese Biomedical Language Understanding Evaluation，CBLUE）定义了一系列医学领域的自然语言理解任务，包括命名实体识别、信息提取、临床诊断规范化，以及一个用于模型评估、比较和分析的相关在线平台。IMCS-MGR 是 CBLUE 的一个子集，定义了医学对话摘要任务，即从医患对话中自动生成对应的诊疗报告。
标签：对话摘要，面向角色的对话摘要（Role-oriented DS），特殊领域对话摘要
下载链接：IMCS-MGR 数据集有两个版本，分别在 2021 年提出 V1 版本夸克网盘和 2022 年提出V2 版本夸克网盘

多轮对话（Multi-turn Dialogue/Conversation）

闲聊

NaturalConv

论文：NaturalConv: A Chinese Dialogue Dataset Towards Multi-turn Topic-driven Conversation
会议：AAAI 2021
简介：NaturalConv 允许参与者谈论他们在对话中提到的任何话题，并且话题转换非常流畅。该数据集包含来自六个领域的 19.9K 个对话和 400K 条对话语句，平均对话轮数为 20.1。这些对话包含对相关主题的深入讨论或多个主题之间的自然过渡。
标签：话题驱动的对话
下载链接：原版夸克网盘 , 处理版夸克网盘

DuLeMon

论文：Long Time No See! Open-Domain Conversation with Long-Term Persona Memory
会议：ACL 2022 Findings
简介：DuLeMon 是一个专注于长期个性化对话和双方个性记忆的多轮中文人机对话数据集。DuLeMon 数据集鼓励深入的对话，其中聊天机器人需要利用已知的用户个性信息进行更深入的对话。DuLeMon 由两部分组成，DeLeMon-SELF 和 DuLeMonBOTH。其中 DeLeMon-SELF 包含 24,500 组对话，Chatbot 只知道自己的个性；而 DuLeMonBOTH 则包含3,001组对话，Chatbot 还知道部分用户的个性。
标签：长期人机对话
下载链接：夸克网盘

LCCC

论文：A Large-Scale Chinese Short-Text Conversation Dataset
会议：NLPCC 2020
简介：一个大规模中文对话数据集，分为 base 版本（680万个对话）和 large 版本（1200万个对话）。数据集的质量由严格的数据清洗管道保证，该管道基于一组规则和一个在手动注释的 110K 对话对上训练的分类器构建。
下载链接：夸克网盘

CORECODE

论文：CORECODE: A Common Sense Annotated Dialogue Dataset with Benchmark Tasks for Chinese Large Language Models
会议：AAAI 2024
简介：一个包含丰富常识知识的数据集，在二元对话上手动注释，旨在评估中文 LLM 的常识推理和常识冲突检测能力。数据集将日常对话中的常识分为三个维度：实体、事件和社交互动。为了便于注释和一致性，开放域对话中常识知识注释的形式标准化为“域：槽=值”。共定义了9个域和37个槽位，以获取各种常识知识。通过这些预定义的域和槽，众包从 19,700 个对话中收集了 76,787 个常识知识注释。
下载链接：夸克网盘

情感对话

ESConv

论文：Towards Emotional Support Dialog Systems
会议：ACL 2021
简介：清华黄民烈老师组贡献的情绪支持对话数据集，是共情对话领域少有的高质量数据集，包含 1,300 组多轮对话，每组对话还涉及情感类别、对话策略、评分等信息。
下载链接：夸克网盘

CPED

论文：CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI
会议：Arxiv 2022
简介：CPED 数据集从 40 个中国电视节目中收集而来，由与同理心和个人特征相关的多源知识组成。这些知识涵盖了 13 种情绪、性别、大五人格特质、19 种对话行为等知识。
下载链接：夸克网盘

搜集汇总

数据集介绍

构建方式

NLCorpora数据集的构建依托于自然语言生成领域的研究需求，通过整合多个高质量的中文数据集，涵盖了文本摘要、对话摘要、多轮对话等多个子领域。每个子数据集均来源于公开的学术论文，并经过严格的筛选与处理，确保数据的多样性与代表性。数据集的构建过程中，采用了自动化与人工审核相结合的方式，确保数据的准确性与一致性。

使用方法

NLCorpora数据集的使用方法简便高效，用户可通过提供的网盘链接直接下载所需数据。数据集以标准化的格式存储，便于直接加载与处理。对于不同的任务，用户可根据数据集的标签信息快速定位相关数据。此外，数据集还提供了处理后的版本，如NaturalConv的处理版，可直接读取并用于模型训练与评估。用户无需进行繁琐的数据预处理，即可快速开展研究工作。

背景与挑战

背景概述

NLCorpora 是一个专注于自然语言生成（NLG）领域的中文数据集集合，旨在为研究人员和开发者提供高质量的中文语料资源。该数据集涵盖了多个子领域，包括文本摘要、对话摘要、多轮对话等，广泛应用于新闻摘要、客服对话、医学对话以及情感支持对话等场景。NLCorpora 的创建始于2020年，由多个研究团队共同贡献，如CLTS、LCSTS、CSDS等数据集分别由NLPCC、EMNLP等顶级会议发布。这些数据集不仅推动了中文自然语言处理技术的发展，还为跨领域的应用提供了丰富的实验数据。

当前挑战

NLCorpora 在构建和应用过程中面临多重挑战。首先，中文文本的复杂性和多样性使得数据标注和清洗工作尤为困难，尤其是在长文本摘要和对话摘要任务中，如何准确捕捉关键信息并生成简洁的摘要是一个核心问题。其次，数据集的构建需要大量的人工标注，尤其是在医学对话和情感支持对话等专业领域，标注人员的专业知识要求较高，导致数据集的构建成本和时间成本显著增加。此外，数据集的多样性和规模虽然为模型训练提供了丰富的资源，但也带来了数据分布不平衡和噪声问题，这对模型的泛化能力提出了更高的要求。

常用场景

经典使用场景

NLCorpora数据集在自然语言生成（NLG）领域具有广泛的应用，尤其是在中文文本摘要和对话生成任务中。例如，CLTS数据集被用于长文本摘要的研究，而LCSTS则专注于短文本摘要。这些数据集为研究者提供了丰富的语料，支持从新闻文章到社交媒体文本的多样化摘要生成任务。

解决学术问题

NLCorpora解决了自然语言处理领域中的多个关键问题，如长文本和短文本的自动摘要生成、多轮对话的流畅性和一致性保持，以及特定领域（如医疗和客服）对话的精准摘要。这些数据集通过提供大规模、高质量的中文语料，显著推动了中文自然语言处理技术的发展，尤其是在模型训练和评估方面。

实际应用

在实际应用中，NLCorpora数据集被广泛应用于智能客服系统、新闻自动摘要生成器、以及医疗对话系统等。例如，CSDS数据集用于提升客服对话的自动摘要质量，而IMCS-MRG则帮助医疗系统从医患对话中自动生成诊疗报告，提高了医疗服务的效率和准确性。

数据集最近研究