five

ubuntu-dialogs-corpus/ubuntu_dialogs_corpus

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/ubuntu-dialogs-corpus/ubuntu_dialogs_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Ubuntu对话语料库(Ubuntu Dialogue Corpus,UDC)是一个包含近100万次多轮对话的数据集,总计超过700万条语句和1亿个单词。该数据集为研究基于神经语言模型的对话管理系统提供了独特的资源,结合了对话状态跟踪挑战数据集的多轮对话特性和Twitter等微博服务的非结构化交互特性。数据集包括训练集和开发/测试集,每个数据集都有特定的特征和分割。
提供机构:
ubuntu-dialogs-corpus
原始信息汇总

数据集概述

数据集基本信息

  • 名称: UDC (Ubuntu Dialogue Corpus)
  • 语言: 英语
  • 许可: 未知
  • 多语言性: 单语种
  • 大小类别: 1M<n<10M
  • 源数据: 原始数据
  • 任务类别: 对话生成
  • 任务ID: dialogue-generation
  • PapersWithCode ID: ubuntu-dialogue-corpus

数据集结构

配置信息

  • train:

    • 特征:
      • Context: 字符串类型
      • Utterance: 字符串类型
      • Label: 整数类型
    • 分割:
      • train: 525126729 字节, 1000000 样本
    • 下载大小: 0 字节
    • 数据集大小: 525126729 字节
  • dev_test:

    • 特征:
      • Context: 字符串类型
      • Ground Truth Utterance: 字符串类型
      • Distractor_0Distractor_8: 字符串类型
    • 分割:
      • test: 27060502 字节, 18920 样本
      • validation: 27663181 字节, 19560 样本
    • 下载大小: 0 字节
    • 数据集大小: 54723683 字节

数据集创建

数据集摘要

Ubuntu Dialogue Corpus 是一个包含近 100 万条多轮对话的数据集,总共有超过 700 万条话语和 1 亿个单词。该数据集为基于神经语言模型的对话管理研究提供了独特的资源,这些模型可以利用大量未标记数据。数据集具有对话状态跟踪挑战数据集中的多轮对话特性,以及来自 Twitter 等微博服务的非结构化交互特性。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作