google-research-datasets/circa

Name: google-research-datasets/circa
Creator: google-research-datasets
Published: 2024-01-18 14:21:12
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/google-research-datasets/circa

下载链接

链接失效反馈

官方服务：

资源简介：

CIRCA（意为‘大约’）数据集旨在帮助机器学习系统解决解释间接回答极性问题的任务。该数据集包含34,268对是/否问题和间接回答，以及对这些回答的解释的注释。数据收集自10种不同的社交对话情境，例如询问朋友的食物偏好。数据集中的文本为英语，数据通过众包方式由英语母语者进行标注。

提供机构：

google-research-datasets

原始信息汇总

数据集概述

数据集基本信息

名称: CIRCA
语言: 英语
许可证: CC BY 4.0
数据集大小: 10K<n<100K
任务类别: 文本分类
任务ID: 多类别分类

数据集结构

特征

context: 字符串类型，对话的社交情境。
question-X: 字符串类型，X提出的问题。
canquestion-X: 字符串类型，问题自动重写为陈述形式。
answer-Y: 字符串类型，Y给出的答案。
judgements: 字符串类型，5个标注者的解释，用#分隔。
goldstandard1: 分类标签，多数标注者的共识。
goldstandard2: 分类标签，一种较宽松的分析方法。

数据分割

训练集: 包含34268个实例，大小为8149409字节。

数据集创建

数据收集和规范化

初始数据收集: 通过众包分三个阶段收集。
- 阶段1: 收集问题，100个标注者每人提供5个问题，共5000个问题。
- 阶段2: 收集答案，3500个问题每个问题由10个标注者提供答案。
- 阶段3: 收集QA对的解释，34268个QA对由新的标注者提供解释。

标注者信息

主要来自美国，少数来自英国和加拿大。

许可证信息

许可证: Creative Commons Attribution 4.0 License

引用信息

@InProceedings{louis_emnlp2020, author = "Annie Louis and Dan Roth and Filip Radlinski", title = ""{I}d rather just go to bed": {U}nderstanding {I}ndirect {A}nswers", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing", year = "2020", }

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集