five

google-research-datasets/coached_conv_pref

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/google-research-datasets/coached_conv_pref
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Coached Conversational Preference Elicitation,包含502个英语对话,涉及12,000个标注的语句,主要讨论电影偏好。数据集采用Wizard-of-Oz方法收集,由两名付费众包工作者扮演助理和用户角色,通过对话方式获取用户的电影偏好。每个对话都标注了实体提及、对实体的偏好、实体描述等信息。数据集适用于对话推荐系统等任务。
提供机构:
google-research-datasets
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Coached Conversational Preference Elicitation
  • 语言: 英语
  • 许可证: CC BY-SA 4.0
  • 数据集大小: n<1K
  • 多语言性: 单语
  • 源数据: 原始数据
  • 任务类别: 其他、文本生成、填充掩码、标记分类
  • 任务ID: 对话建模、解析

数据集描述

  • 摘要: 包含502个英语对话,涉及12,000个带注释的话语,用户和助手之间讨论电影偏好。使用Wizard-of-Oz方法收集,其中一个工作者扮演“助手”,另一个扮演“用户”。助手通过Coached Conversational Preference Elicitation (CCPE)方法引导用户表达电影偏好。每个对话都标注了实体提及、实体偏好、实体描述和其他实体声明。

数据结构

  • 特征:

    • conversationId: 对话的唯一随机ID。
    • utterances: 工作者的话语数组。
      • index: 话语的0基索引。
      • speaker: 说话者(USER或ASSISTANT)。
      • text: 话语的原始文本。
      • segments: 文本中的语义注释段落。
        • startIndex: 注释在话语文本中的起始位置。
        • endIndex: 注释在话语文本中的结束位置。
        • text: 被注释的原始文本。
        • annotations: 该段落的注释详情。
          • annotationType: 注释类别。
          • entityType: 实体类别。
  • 注释类型:

    • ENTITY_NAME (0): 标记相关实体的名称。
    • ENTITY_PREFERENCE (1): 表示对话参与者对相关实体的喜好或不喜好。
    • ENTITY_DESCRIPTION (2): 中性的实体描述。
    • ENTITY_OTHER (3): 其他关于实体的相关声明。
  • 实体类型:

    • MOVIE_GENRE_OR_CATEGORY (0): 电影类型或一般描述。
    • MOVIE_OR_SERIES (1): 电影或系列电影的完整或部分名称。
    • PERSON (2): 实际人物的完整或部分名称。
    • SOMETHING_ELSE (3): 其他重要的专有名词。

数据分割

  • 训练集: 包含整个数据集,共502个对话。

许可证

  • 许可证信息: Creative Commons Attribution 4.0 License

引用信息

@inproceedings{radlinski-etal-2019-ccpe, title = {Coached Conversational Preference Elicitation: A Case Study in Understanding Movie Preferences}, author = {Filip Radlinski and Krisztian Balog and Bill Byrne and Karthik Krishnamoorthi}, booktitle = {Proceedings of the Annual Meeting of the Special Interest Group on Discourse and Dialogue ({SIGDIAL})}, year = 2019 }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作