google-research-datasets/circa
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/google-research-datasets/circa
下载链接
链接失效反馈官方服务:
资源简介:
CIRCA(意为‘大约’)数据集旨在帮助机器学习系统解决解释间接回答极性问题的任务。该数据集包含34,268对是/否问题和间接回答,以及对这些回答的解释的注释。数据收集自10种不同的社交对话情境,例如询问朋友的食物偏好。数据集中的文本为英语,数据通过众包方式由英语母语者进行标注。
提供机构:
google-research-datasets
原始信息汇总
数据集概述
数据集基本信息
- 名称: CIRCA
- 语言: 英语
- 许可证: CC BY 4.0
- 数据集大小: 10K<n<100K
- 任务类别: 文本分类
- 任务ID: 多类别分类
数据集结构
特征
- context: 字符串类型,对话的社交情境。
- question-X: 字符串类型,X提出的问题。
- canquestion-X: 字符串类型,问题自动重写为陈述形式。
- answer-Y: 字符串类型,Y给出的答案。
- judgements: 字符串类型,5个标注者的解释,用#分隔。
- goldstandard1: 分类标签,多数标注者的共识。
- goldstandard2: 分类标签,一种较宽松的分析方法。
数据分割
- 训练集: 包含34268个实例,大小为8149409字节。
数据集创建
数据收集和规范化
- 初始数据收集: 通过众包分三个阶段收集。
- 阶段1: 收集问题,100个标注者每人提供5个问题,共5000个问题。
- 阶段2: 收集答案,3500个问题每个问题由10个标注者提供答案。
- 阶段3: 收集QA对的解释,34268个QA对由新的标注者提供解释。
标注者信息
- 主要来自美国,少数来自英国和加拿大。
许可证信息
- 许可证: Creative Commons Attribution 4.0 License
引用信息
@InProceedings{louis_emnlp2020, author = "Annie Louis and Dan Roth and Filip Radlinski", title = ""{I}d rather just go to bed": {U}nderstanding {I}ndirect {A}nswers", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing", year = "2020", }
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



