Circa Dataset

github2024-01-29 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/circa

下载链接

链接失效反馈

官方服务：

资源简介：

Circa数据集旨在帮助机器学习系统解决解释极性问题的间接答案的问题。该数据集包含成对的yes/no问题和间接答案，以及答案解释的注释。数据收集自10种不同的社交对话情境（例如朋友的饮食偏好）。

The Circa dataset is designed to assist machine learning systems in addressing the challenge of interpreting indirect answers to polar questions. This dataset comprises pairs of yes/no questions and their corresponding indirect answers, along with annotations that explain the reasoning behind the answers. The data was collected from ten distinct social conversational contexts, such as discussions about a friend's dietary preferences.

创建时间：

2020-10-03

原始信息汇总

数据集概述

数据集名称

名称: The Circa Dataset

数据集目的

目的: 帮助机器学习系统解决间接回答极性问题的解释问题。

数据集内容

内容: 包含成对的yes/no问题和间接答案，以及答案的解释标注。
示例:
- 问题: 你是素食主义者吗？
- 答案: 我太喜欢吃汉堡了。[否]
- 问题: 你喜欢辣食吗？
- 答案: 我什么东西都加辣酱。[是]
- 问题: 你想去看现场音乐吗？
- 答案: 如果不太拥挤的话。[是，基于条件]

数据集结构

格式: .tsv
列信息:
- id: 唯一标识符
- context: 对话的社交情境
- question-X: X提出的问题
- canquestion-X: 问题的陈述形式重写
- answer-Y: Y对X的回答
- judgements: 5个标注者的解释
- goldstandard1: 标注者的多数解释
- goldstandard2: 另一种多数解释计算方式

数据集收集方法

阶段1: 收集问题，设计10个社交情境，收集5000个问题。
阶段2: 对3500个问题收集答案，每个问题由10个标注者提供答案。
阶段3: 对34,268个QA对进行解释标注，标注者选择答案的解释。

数据集情境

情境数量: 10个
示例情境:
- X想了解Y的食物偏好
- X想了解Y周末喜欢做什么活动
- X想了解Y喜欢读什么类型的书

许可证

许可证: Creative Commons Attribution 4.0 License

联系信息

联系方式: circa@google.com

搜集汇总

数据集介绍

构建方式

Circa数据集的构建过程分为三个阶段，旨在解决机器理解间接回答的问题。第一阶段，通过设计10种社交情境，收集了5000个仅需‘是’或‘否’回答的问题。第二阶段，从第一阶段的问题中抽样3500个，由10位不同的标注者提供自然语言回答，避免使用明确的‘是’或‘否’词汇。第三阶段，将34,268个问答对交给另一组标注者，评估提问者可能如何解读这些回答，标注选项包括‘是’、‘可能是’、‘有条件的是’、‘否’、‘可能否’等。

特点

Circa数据集包含10种社交情境下的问答对，每个问答对都附有标注者对其回答的解读。数据集的特点在于其问答对的多样性和复杂性，涵盖了从食物偏好到职业选择等多个主题。此外，数据集还提供了自动重写的问题版本和两种不同的黄金标准解读，为研究者提供了丰富的分析维度。

使用方法

Circa数据集以.tsv格式提供，每行包含8个字段，包括唯一ID、社交情境、问题、自动重写的问题、回答、五位标注者的解读、以及两种黄金标准解读。研究者可以利用该数据集训练机器学习模型，以识别和分类新的问答对中的间接回答。数据集的使用方法包括加载.tsv文件、解析各字段、并根据需要进行模型训练和评估。

背景与挑战

背景概述

Circa数据集由Annie Louis、Dan Roth和Filip Radlinski于2020年创建，旨在帮助机器学习系统解决理解间接回答极性问题的挑战。该数据集包含是/否问题与间接回答的配对，并附有回答解释的标注。数据收集于10种不同的社交对话情境中，如询问朋友的食物偏好等。该数据集在自然语言处理领域具有重要意义，特别是在理解人类对话中的隐含意义和间接表达方面。通过提供丰富的标注数据，Circa数据集为开发能够准确解析间接回答的机器学习模型提供了坚实的基础。

当前挑战

Circa数据集面临的挑战主要包括两个方面。首先，理解间接回答的复杂性。人类对话中的间接回答往往依赖于上下文和隐含意义，这对机器学习模型的语义理解能力提出了极高要求。其次，数据收集和标注过程中的挑战。确保标注的一致性和准确性需要大量的人工参与和严格的质量控制，尤其是在处理多样化的社交情境和复杂的语言表达时。此外，如何将模型的预测结果与实际人类理解保持一致，也是该领域亟待解决的问题。

常用场景

经典使用场景

Circa数据集在自然语言处理领域中，主要用于训练和评估机器学习模型，以理解和解释对极性问题的间接回答。通过提供一系列社交对话情境中的问答对，该数据集帮助模型学习如何从间接回答中推断出明确的‘是’或‘否’的答案。这种能力对于开发更自然、更人性化的对话系统至关重要。

实际应用

在实际应用中，Circa数据集可以用于改进智能助手、客服机器人和社交聊天机器人等对话系统的性能。通过训练这些系统理解间接回答，可以提高其与用户交互的自然度和准确性。例如，在客服场景中，机器人能够更好地理解客户的隐含需求，从而提供更精准的服务。

衍生相关工作

Circa数据集自发布以来，已经衍生出多项相关研究。例如，一些研究基于该数据集开发了新的深度学习模型，用于提高间接回答分类的准确性。此外，还有研究利用该数据集探索了不同社交情境下间接回答的多样性，进一步丰富了对话系统的应用场景。这些工作不仅验证了Circa数据集的价值，也为未来的研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集