facebook/curiosity_dialogs
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/facebook/curiosity_dialogs
下载链接
链接失效反馈官方服务:
资源简介:
Curiosity数据集包含14K个英语对话(181K条话语),用户和助手围绕地理主题(如地缘政治实体和位置)进行对话。该数据集标注了用户预先存在的知识、消息级别的对话行为、与维基百科的关联以及用户对消息的反应。数据集可用于训练对话好奇心模型,测试用户在与已知事实相关的对话中参与度增加的假设。
Curiosity数据集包含14K个英语对话(181K条话语),用户和助手围绕地理主题(如地缘政治实体和位置)进行对话。该数据集标注了用户预先存在的知识、消息级别的对话行为、与维基百科的关联以及用户对消息的反应。数据集可用于训练对话好奇心模型,测试用户在与已知事实相关的对话中参与度增加的假设。
提供机构:
facebook
原始信息汇总
数据集概述
名称: Curiosity Dataset
语言: 英语(en)
许可证: CC-BY-NC-4.0
多语言性: 单语
大小: 10K<n<100K
源数据: 原始数据
任务类别: 文本生成、填充掩码
任务ID: 对话建模
论文代码ID: curiosity
标签: 会话好奇心
数据集结构
数据实例
数据集包含用户和助手之间的对话,以及对话的各个属性。
数据字段
- messages: 用户和助手之间的对话及其相关属性
- dialog_acts: 对话中的行动列表
- facts: 助手返回的事实列表
- fid: 事实ID
- source: 事实来源
- used: 事实是否在同一对话中使用过
- liked: 对话是否被喜欢的指示
- message: 用户和助手之间的消息列表
- message_id: 消息ID
- sender: 消息作者ID
- known_entities: 用户已知实体的事实
- focus_entity: 对话中关注的实体
- dialog_id: 对话ID
- inferred_steps: 推断步骤数
- created_time: 对话创建时间
- aspects: 对话涉及的两个方面列表
- first_aspect: 第一个方面
- second_aspect: 第二个方面
- shuffle_facts: 事实是否被打乱
- related_entities: 与关注实体相关的十五个实体列表
- tag: 对话标签
- user_id: 用户ID
- assistant_id: 助手ID
- is_annotated: 是否已注释
- user_dialog_rating: 用户对话评分(1-5)
- user_other_agent_rating: 用户对其他代理的评分(1-5)
- assistant_dialog_rating: 助手对话评分(1-5)
- assistant_other_agent_rating: 助手对其他代理的评分(1-5)
- reported: 对话是否被报告为不适当
- annotated: 是否已注释
数据分割
- train: 10287个对话实例
- val: 1287个对话实例
- test: 1287个对话实例
- test_zero: 1187个对话实例



