ubuntu-dialogs-corpus/ubuntu_dialogs_corpus

Name: ubuntu-dialogs-corpus/ubuntu_dialogs_corpus
Creator: ubuntu-dialogs-corpus
Published: 2024-01-18 11:17:41
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/ubuntu-dialogs-corpus/ubuntu_dialogs_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Ubuntu对话语料库（Ubuntu Dialogue Corpus，UDC）是一个包含近100万次多轮对话的数据集，总计超过700万条语句和1亿个单词。该数据集为研究基于神经语言模型的对话管理系统提供了独特的资源，结合了对话状态跟踪挑战数据集的多轮对话特性和Twitter等微博服务的非结构化交互特性。数据集包括训练集和开发/测试集，每个数据集都有特定的特征和分割。

提供机构：

ubuntu-dialogs-corpus

原始信息汇总

数据集概述

数据集基本信息

名称: UDC (Ubuntu Dialogue Corpus)
语言: 英语
许可: 未知
多语言性: 单语种
大小类别: 1M<n<10M
源数据: 原始数据
任务类别: 对话生成
任务ID: dialogue-generation
PapersWithCode ID: ubuntu-dialogue-corpus

数据集结构

配置信息

train:
- 特征:
  - Context: 字符串类型
  - Utterance: 字符串类型
  - Label: 整数类型
- 分割:
  - train: 525126729 字节, 1000000 样本
- 下载大小: 0 字节
- 数据集大小: 525126729 字节
dev_test:
- 特征:
  - Context: 字符串类型
  - Ground Truth Utterance: 字符串类型
  - Distractor_0 至 Distractor_8: 字符串类型
- 分割:
  - test: 27060502 字节, 18920 样本
  - validation: 27663181 字节, 19560 样本
- 下载大小: 0 字节
- 数据集大小: 54723683 字节

数据集创建

数据集摘要

Ubuntu Dialogue Corpus 是一个包含近 100 万条多轮对话的数据集，总共有超过 700 万条话语和 1 亿个单词。该数据集为基于神经语言模型的对话管理研究提供了独特的资源，这些模型可以利用大量未标记数据。数据集具有对话状态跟踪挑战数据集中的多轮对话特性，以及来自 Twitter 等微博服务的非结构化交互特性。

5,000+

优质数据集

54 个

任务类型

进入经典数据集