ubuntu-dialogs-corpus/ubuntu_dialogs_corpus
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/ubuntu-dialogs-corpus/ubuntu_dialogs_corpus
下载链接
链接失效反馈官方服务:
资源简介:
Ubuntu对话语料库(Ubuntu Dialogue Corpus,UDC)是一个包含近100万次多轮对话的数据集,总计超过700万条语句和1亿个单词。该数据集为研究基于神经语言模型的对话管理系统提供了独特的资源,结合了对话状态跟踪挑战数据集的多轮对话特性和Twitter等微博服务的非结构化交互特性。数据集包括训练集和开发/测试集,每个数据集都有特定的特征和分割。
提供机构:
ubuntu-dialogs-corpus
原始信息汇总
数据集概述
数据集基本信息
- 名称: UDC (Ubuntu Dialogue Corpus)
- 语言: 英语
- 许可: 未知
- 多语言性: 单语种
- 大小类别: 1M<n<10M
- 源数据: 原始数据
- 任务类别: 对话生成
- 任务ID: dialogue-generation
- PapersWithCode ID: ubuntu-dialogue-corpus
数据集结构
配置信息
-
train:
- 特征:
Context: 字符串类型Utterance: 字符串类型Label: 整数类型
- 分割:
train: 525126729 字节, 1000000 样本
- 下载大小: 0 字节
- 数据集大小: 525126729 字节
- 特征:
-
dev_test:
- 特征:
Context: 字符串类型Ground Truth Utterance: 字符串类型Distractor_0至Distractor_8: 字符串类型
- 分割:
test: 27060502 字节, 18920 样本validation: 27663181 字节, 19560 样本
- 下载大小: 0 字节
- 数据集大小: 54723683 字节
- 特征:
数据集创建
数据集摘要
Ubuntu Dialogue Corpus 是一个包含近 100 万条多轮对话的数据集,总共有超过 700 万条话语和 1 亿个单词。该数据集为基于神经语言模型的对话管理研究提供了独特的资源,这些模型可以利用大量未标记数据。数据集具有对话状态跟踪挑战数据集中的多轮对话特性,以及来自 Twitter 等微博服务的非结构化交互特性。



