google-research-datasets/coached_conv_pref
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/google-research-datasets/coached_conv_pref
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Coached Conversational Preference Elicitation,包含502个英语对话,涉及12,000个标注的语句,主要讨论电影偏好。数据集采用Wizard-of-Oz方法收集,由两名付费众包工作者扮演助理和用户角色,通过对话方式获取用户的电影偏好。每个对话都标注了实体提及、对实体的偏好、实体描述等信息。数据集适用于对话推荐系统等任务。
提供机构:
google-research-datasets
原始信息汇总
数据集概述
基本信息
- 数据集名称: Coached Conversational Preference Elicitation
- 语言: 英语
- 许可证: CC BY-SA 4.0
- 数据集大小: n<1K
- 多语言性: 单语
- 源数据: 原始数据
- 任务类别: 其他、文本生成、填充掩码、标记分类
- 任务ID: 对话建模、解析
数据集描述
- 摘要: 包含502个英语对话,涉及12,000个带注释的话语,用户和助手之间讨论电影偏好。使用Wizard-of-Oz方法收集,其中一个工作者扮演“助手”,另一个扮演“用户”。助手通过Coached Conversational Preference Elicitation (CCPE)方法引导用户表达电影偏好。每个对话都标注了实体提及、实体偏好、实体描述和其他实体声明。
数据结构
-
特征:
conversationId: 对话的唯一随机ID。utterances: 工作者的话语数组。index: 话语的0基索引。speaker: 说话者(USER或ASSISTANT)。text: 话语的原始文本。segments: 文本中的语义注释段落。startIndex: 注释在话语文本中的起始位置。endIndex: 注释在话语文本中的结束位置。text: 被注释的原始文本。annotations: 该段落的注释详情。annotationType: 注释类别。entityType: 实体类别。
-
注释类型:
ENTITY_NAME(0): 标记相关实体的名称。ENTITY_PREFERENCE(1): 表示对话参与者对相关实体的喜好或不喜好。ENTITY_DESCRIPTION(2): 中性的实体描述。ENTITY_OTHER(3): 其他关于实体的相关声明。
-
实体类型:
MOVIE_GENRE_OR_CATEGORY(0): 电影类型或一般描述。MOVIE_OR_SERIES(1): 电影或系列电影的完整或部分名称。PERSON(2): 实际人物的完整或部分名称。SOMETHING_ELSE(3): 其他重要的专有名词。
数据分割
- 训练集: 包含整个数据集,共502个对话。
许可证
- 许可证信息: Creative Commons Attribution 4.0 License
引用信息
@inproceedings{radlinski-etal-2019-ccpe, title = {Coached Conversational Preference Elicitation: A Case Study in Understanding Movie Preferences}, author = {Filip Radlinski and Krisztian Balog and Bill Byrne and Karthik Krishnamoorthi}, booktitle = {Proceedings of the Annual Meeting of the Special Interest Group on Discourse and Dialogue ({SIGDIAL})}, year = 2019 }



