five

google-research-datasets/circa

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/google-research-datasets/circa
下载链接
链接失效反馈
官方服务:
资源简介:
CIRCA(意为‘大约’)数据集旨在帮助机器学习系统解决解释间接回答极性问题的任务。该数据集包含34,268对是/否问题和间接回答,以及对这些回答的解释的注释。数据收集自10种不同的社交对话情境,例如询问朋友的食物偏好。数据集中的文本为英语,数据通过众包方式由英语母语者进行标注。
提供机构:
google-research-datasets
原始信息汇总

数据集概述

数据集基本信息

  • 名称: CIRCA
  • 语言: 英语
  • 许可证: CC BY 4.0
  • 数据集大小: 10K<n<100K
  • 任务类别: 文本分类
  • 任务ID: 多类别分类

数据集结构

特征

  • context: 字符串类型,对话的社交情境。
  • question-X: 字符串类型,X提出的问题。
  • canquestion-X: 字符串类型,问题自动重写为陈述形式。
  • answer-Y: 字符串类型,Y给出的答案。
  • judgements: 字符串类型,5个标注者的解释,用#分隔。
  • goldstandard1: 分类标签,多数标注者的共识。
  • goldstandard2: 分类标签,一种较宽松的分析方法。

数据分割

  • 训练集: 包含34268个实例,大小为8149409字节。

数据集创建

数据收集和规范化

  • 初始数据收集: 通过众包分三个阶段收集。
    • 阶段1: 收集问题,100个标注者每人提供5个问题,共5000个问题。
    • 阶段2: 收集答案,3500个问题每个问题由10个标注者提供答案。
    • 阶段3: 收集QA对的解释,34268个QA对由新的标注者提供解释。

标注者信息

  • 主要来自美国,少数来自英国和加拿大。

许可证信息

  • 许可证: Creative Commons Attribution 4.0 License

引用信息

@InProceedings{louis_emnlp2020, author = "Annie Louis and Dan Roth and Filip Radlinski", title = ""{I}d rather just go to bed": {U}nderstanding {I}ndirect {A}nswers", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing", year = "2020", }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作