five

facebook/curiosity_dialogs

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/facebook/curiosity_dialogs
下载链接
链接失效反馈
官方服务:
资源简介:
Curiosity数据集包含14K个英语对话(181K条话语),用户和助手围绕地理主题(如地缘政治实体和位置)进行对话。该数据集标注了用户预先存在的知识、消息级别的对话行为、与维基百科的关联以及用户对消息的反应。数据集可用于训练对话好奇心模型,测试用户在与已知事实相关的对话中参与度增加的假设。

Curiosity数据集包含14K个英语对话(181K条话语),用户和助手围绕地理主题(如地缘政治实体和位置)进行对话。该数据集标注了用户预先存在的知识、消息级别的对话行为、与维基百科的关联以及用户对消息的反应。数据集可用于训练对话好奇心模型,测试用户在与已知事实相关的对话中参与度增加的假设。
提供机构:
facebook
原始信息汇总

数据集概述

名称: Curiosity Dataset

语言: 英语(en)

许可证: CC-BY-NC-4.0

多语言性: 单语

大小: 10K<n<100K

源数据: 原始数据

任务类别: 文本生成、填充掩码

任务ID: 对话建模

论文代码ID: curiosity

标签: 会话好奇心

数据集结构

数据实例

数据集包含用户和助手之间的对话,以及对话的各个属性。

数据字段

  • messages: 用户和助手之间的对话及其相关属性
    • dialog_acts: 对话中的行动列表
    • facts: 助手返回的事实列表
      • fid: 事实ID
      • source: 事实来源
      • used: 事实是否在同一对话中使用过
    • liked: 对话是否被喜欢的指示
    • message: 用户和助手之间的消息列表
    • message_id: 消息ID
    • sender: 消息作者ID
  • known_entities: 用户已知实体的事实
  • focus_entity: 对话中关注的实体
  • dialog_id: 对话ID
  • inferred_steps: 推断步骤数
  • created_time: 对话创建时间
  • aspects: 对话涉及的两个方面列表
  • first_aspect: 第一个方面
  • second_aspect: 第二个方面
  • shuffle_facts: 事实是否被打乱
  • related_entities: 与关注实体相关的十五个实体列表
  • tag: 对话标签
  • user_id: 用户ID
  • assistant_id: 助手ID
  • is_annotated: 是否已注释
  • user_dialog_rating: 用户对话评分(1-5)
  • user_other_agent_rating: 用户对其他代理的评分(1-5)
  • assistant_dialog_rating: 助手对话评分(1-5)
  • assistant_other_agent_rating: 助手对其他代理的评分(1-5)
  • reported: 对话是否被报告为不适当
  • annotated: 是否已注释

数据分割

  • train: 10287个对话实例
  • val: 1287个对话实例
  • test: 1287个对话实例
  • test_zero: 1187个对话实例
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作