google-research-datasets/coached_conv_pref

Name: google-research-datasets/coached_conv_pref
Creator: google-research-datasets
Published: 2024-01-18 09:16:22
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/google-research-datasets/coached_conv_pref

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Coached Conversational Preference Elicitation，包含502个英语对话，涉及12,000个标注的语句，主要讨论电影偏好。数据集采用Wizard-of-Oz方法收集，由两名付费众包工作者扮演助理和用户角色，通过对话方式获取用户的电影偏好。每个对话都标注了实体提及、对实体的偏好、实体描述等信息。数据集适用于对话推荐系统等任务。

提供机构：

google-research-datasets

原始信息汇总

数据集概述

基本信息

数据集名称: Coached Conversational Preference Elicitation
语言: 英语
许可证: CC BY-SA 4.0
数据集大小: n<1K
多语言性: 单语
源数据: 原始数据
任务类别: 其他、文本生成、填充掩码、标记分类
任务ID: 对话建模、解析

数据集描述

摘要: 包含502个英语对话，涉及12,000个带注释的话语，用户和助手之间讨论电影偏好。使用Wizard-of-Oz方法收集，其中一个工作者扮演“助手”，另一个扮演“用户”。助手通过Coached Conversational Preference Elicitation (CCPE)方法引导用户表达电影偏好。每个对话都标注了实体提及、实体偏好、实体描述和其他实体声明。

数据结构

特征:
- conversationId: 对话的唯一随机ID。
- utterances: 工作者的话语数组。
  - index: 话语的0基索引。
  - speaker: 说话者（USER或ASSISTANT）。
  - text: 话语的原始文本。
  - segments: 文本中的语义注释段落。
    - startIndex: 注释在话语文本中的起始位置。
    - endIndex: 注释在话语文本中的结束位置。
    - text: 被注释的原始文本。
    - annotations: 该段落的注释详情。
      - annotationType: 注释类别。
      - entityType: 实体类别。
注释类型:
- ENTITY_NAME (0): 标记相关实体的名称。
- ENTITY_PREFERENCE (1): 表示对话参与者对相关实体的喜好或不喜好。
- ENTITY_DESCRIPTION (2): 中性的实体描述。
- ENTITY_OTHER (3): 其他关于实体的相关声明。
实体类型:
- MOVIE_GENRE_OR_CATEGORY (0): 电影类型或一般描述。
- MOVIE_OR_SERIES (1): 电影或系列电影的完整或部分名称。
- PERSON (2): 实际人物的完整或部分名称。
- SOMETHING_ELSE (3): 其他重要的专有名词。

数据分割

训练集: 包含整个数据集，共502个对话。

许可证

许可证信息: Creative Commons Attribution 4.0 License

引用信息

@inproceedings{radlinski-etal-2019-ccpe, title = {Coached Conversational Preference Elicitation: A Case Study in Understanding Movie Preferences}, author = {Filip Radlinski and Krisztian Balog and Bill Byrne and Karthik Krishnamoorthi}, booktitle = {Proceedings of the Annual Meeting of the Special Interest Group on Discourse and Dialogue ({SIGDIAL})}, year = 2019 }

5,000+

优质数据集

54 个

任务类型

进入经典数据集