five

allenai/soda

收藏
Hugging Face2023-01-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/allenai/soda
下载链接
链接失效反馈
官方服务:
资源简介:
🥤SODA是第一个公开的、百万规模的高质量对话数据集,涵盖了广泛的社会互动。对话是通过从InstructGPT中提取并结合社会常识知识图谱(Atomic10x)中的知识进行上下文化处理而创建的。人类评估显示,SODA中的对话比之前由人类编写的数据集(如DailyDialog、BlendedSkillTalk)更加一致、具体且自然。此外,由于社会常识知识包括情感反应(即xReact关系),SODA还包含了385K个对话,标注了1.7K种独特的情感,并提供了关于体验者和原因的信息(即PersonX和事件头)。数据集的结构包括事件头、关系、事件尾、叙述、对话、说话者等多个字段。
提供机构:
allenai
原始信息汇总

数据集概述

数据集名称

  • 名称: SODA

数据集描述

  • 描述: SODA 是一个公开的百万级高质量对话数据集,涵盖广泛的社交互动。该数据集通过将社交常识知识从知识图谱(Atomic10x)上下文化,从PLM(InstructGPT)中提炼对话。

语言

  • 语言: 英语

数据集结构

  • 字段: head, relation, tail, literal, narrative, dialogue, speakers, PersonX, PersonY, PersonZ, original_index, split, head_answer, pmi_head_answer, relation_tail_answer, pmi_relation_tail_answer
  • 类型: 字符串、列表、整数
  • 描述: 描述了常识知识三元组的事件、关系、尾事件、句子形式的常识知识、基于常识知识的叙述、对话、说话者、人物角色以及分割信息。

数据集创建

  • 创建方法: 通过从InstructGPT中提炼对话,并结合社交常识知识图谱的上下文化信息来生成对话。

数据集大小

  • 大小: 1486896个样本
  • 分割: 训练集1191582个样本,验证集146346个样本,测试集148968个样本

许可证

  • 许可证: cc-by-4.0

标签和任务

  • 标签: 对话、叙述、常识
  • 任务: 对话生成

数据集来源

  • 来源: 原始数据集和扩展数据集(Atomic10x)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作