NaturalConv

Hugging Face2024-11-07 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/xywang1/NaturalConv

下载链接

链接失效反馈

官方服务：

资源简介：

NaturalConv是一个面向多轮话题驱动对话的中文对话数据集。数据集包含5个文件，其中dialog_release.json包含19,919个对话，约40万条对话语句。每个对话由唯一的dialog_id标识，并与一个document_id关联，content包含整个对话会话。document_url_release.json包含6,500个文档，每个文档由唯一的document_id标识，并关联一个topic和url。train.txt、dev.txt和test.txt分别包含训练、开发和测试的dialog_id。数据集用于文本生成任务，适用于对话、多轮对话、话题驱动、文档和新闻等标签。

NaturalConv is a Chinese dialogue dataset oriented towards multi-turn topic-driven conversations. The dataset includes five files, among which dialog_release.json contains 19,919 dialogues and approximately 400,000 conversational utterances. Each dialogue is identified by a unique dialog_id and associated with a document_id, with the "content" field containing the entire conversation session. The document_url_release.json includes 6,500 documents, each identified by a unique document_id and linked to a topic and a URL. The train.txt, dev.txt, and test.txt respectively contain the dialog_id lists for the training, development, and test splits. This dataset is intended for text generation tasks, and is applicable to labels such as dialogue, multi-turn dialogue, topic-driven, document, and news.

创建时间：

2024-11-07

原始信息汇总

NaturalConv: A Chinese Dialogue Dataset Towards Multi-turn Topic-driven Conversation

概述

数据集名称: NaturalConv
语言: 中文
任务类别: 文本生成
标签: 对话, 多轮, 主题驱动, 文档, 新闻, 会话
数据规模: 10K<n<100K
配置:
- 配置名称: default
- 数据文件: dialog_release.json

数据文件

dialog_release.json:
- 包含19,919个对话，约40万条对话语句。
- 每个对话包含三个键: "dialog_id", "document_id", "content"。
- "dialog_id": 对话的唯一ID。
- "document_id": 对话所基于的文档ID。
- "content": 整个对话会话的列表。
document_url_release.json:
- 包含6,500个文档。
- 每个文档包含三个键: "document_id", "topic", "url"。
- "document_id": 文档的唯一ID。
- "topic": 文档所属的主题。
- "url": 原始文档的URL。
train.txt, dev.txt, test.txt:
- 分别包含训练、开发和测试的"dialog_id"。

文档下载

仅用于研究目的，可通过提供的代码库下载文档文本。

引用

如果使用该数据集，请引用相关论文。

许可证

数据集仅用于非商业用途。
商业用途授权请联系ailab@tencent.com。

免责声明

数据集按“原样”提供，不提供任何明示或暗示的保证。
数据集中的观点和意见不代表腾讯或作者的观点。

搜集汇总

数据集介绍

构建方式

NaturalConv数据集的构建基于多轮主题驱动的对话场景，旨在模拟真实世界中的中文对话。该数据集通过收集与特定主题相关的文档，并基于这些文档生成对话内容。具体而言，数据集包含19,919个对话，每个对话均与6,500个文档中的某一篇相关联。对话内容通过人工或半自动方式生成，确保对话的自然性和连贯性。数据集的构建过程注重对话的多样性和主题的广泛覆盖，涵盖了新闻、时事等多个领域。

使用方法

使用NaturalConv数据集时，首先通过加载`dialog_release.json`文件获取对话内容，每个对话包含唯一的`dialog_id`、关联的`document_id`以及完整的对话内容`content`。用户还可以通过`document_url_release.json`文件获取与对话相关的文档信息。数据集提供了`train.txt`、`dev.txt`和`test.txt`文件，分别用于训练、验证和测试。研究人员可以通过提供的代码库下载原始文档文本，进一步丰富对话的背景信息。

背景与挑战

背景概述

NaturalConv数据集由腾讯AI实验室于2021年发布，旨在推动中文多轮主题驱动对话系统的研究。该数据集由Xiaoyang Wang、Chen Li、Jianqiao Zhao和Dong Yu等研究人员共同开发，并在第35届AAAI人工智能会议上首次亮相。数据集包含19,919个对话和6,500个文档，涵盖了新闻、话题驱动对话等多个领域。其核心研究问题是如何在对话系统中有效引入外部知识，以提升对话的连贯性和信息量。NaturalConv的发布为中文对话系统的研究提供了重要的数据支持，推动了该领域的技术进步。

当前挑战

NaturalConv数据集在解决中文多轮主题驱动对话问题时面临多重挑战。首先，对话的连贯性和上下文理解是核心难题，尤其是在引入外部文档作为知识源时，如何确保对话的自然流畅性成为关键。其次，数据集的构建过程中，研究人员需要从大量文档中提取相关信息，并将其与对话内容进行有效关联，这一过程不仅耗时且容易引入噪声。此外，数据集的规模和质量也对模型的训练和评估提出了较高要求，如何在保证数据多样性的同时避免偏差，是构建过程中不可忽视的挑战。

常用场景

经典使用场景

NaturalConv数据集在中文多轮主题驱动对话研究中具有重要应用。该数据集通过提供基于新闻文档的多轮对话，为研究者提供了一个丰富的语料库，用于训练和评估对话生成模型。其经典使用场景包括对话系统的开发与优化，尤其是在主题连贯性和上下文理解方面的研究。

解决学术问题

NaturalConv数据集解决了中文多轮对话研究中数据稀缺的问题，尤其是在主题驱动对话领域。通过提供大量基于新闻文档的对话数据，该数据集为研究者提供了丰富的语料，用于探索对话生成、主题连贯性、上下文理解等关键问题。其发布显著推动了中文对话系统的研究进展，为相关领域的学术研究提供了重要支持。

实际应用

在实际应用中，NaturalConv数据集被广泛用于开发智能客服、虚拟助手等对话系统。通过利用该数据集中的多轮对话数据，开发者能够训练出更加智能、连贯的对话模型，提升用户体验。此外，该数据集还可用于新闻推荐系统的开发，通过分析用户与系统的对话，提供个性化的新闻推荐服务。

数据集最近研究