ACORN

github2024-05-09 更新2024-05-31 收录

下载链接：

https://github.com/a-brassard/ACORN

下载链接

链接失效反馈

官方服务：

资源简介：

ACORN contains 3,500 human-written and LLM-generated explanations with aspect-wise quality ratings given by humans.

ACORN数据集包含3500条由人类撰写及大语言模型（Large Language Model）生成的解释文本，附带人类标注的各维度质量评分。

创建时间：

2024-05-07

原始信息汇总

ACORN 数据集概述

数据集简介

ACORN 数据集包含 3,500 条由人类编写和 LLM 生成的解释，这些解释按照方面的质量评级由人类进行评估。

数据文件

数据集文件为 ACORN.jsonl，每行包含以下字段：

question：问题文本
choices：答案选项列表
label：正确答案索引
explanation：解释文本
voted_ratings：多数投票评级
worker_ratings：所有工人的评级，保存为字典的字典（工人 ID → 评级字典）

质量方面

解释质量是主观的，可能取决于预期用途。本数据集包括一般评级和细粒度解释质量方面，假设理想的解释是流畅、充分、最小和对比的。

数据来源

ACORN 包含来自多个来源的解释样本，具体来源包括 ECQA、CoS-E、COPA-SSE，以及为 Commonsense QA 和 Balanced COPA 生成的解释，还有 GPT-3.5 编辑的 CoS-E 和 COPA-SSE 版本。每个组包含 500 个样本，总计 3500 个样本。

附加字段

除了上述字段外，数据集还包含以下信息：

id：测试样本 ID
q_id：原始问题 ID
e_id：原始解释 ID
q_source：问题来源（Commonsense QA 或 Balanced COPA）
e_source：解释来源
triples：三元组形式的解释（仅限 COPA-SSE）
postivies、negatives：正负陈述（仅限 ECQA）

引用

如果使用此数据集，请引用以下论文：

@article{brassard2024acorn, title = {ACORN: Aspect-wise Commonsense Reasoning Explanation Evaluation}, author = {Ana Brassard and Benjamin Heinzerling and Keito Kudo and Keisuke Sakaguchi and Kentaro Inui}, year = {2024}, journal = {arXiv preprint arXiv: 2405.04818} }

搜集汇总

数据集介绍

构建方式

ACORN数据集通过精心设计的流程构建，汇集了3,500条由人类撰写和大型语言模型生成的解释，并由人类进行多方面的质量评估。数据集的构建过程中，采用了多种来源的解释样本，包括ECQA、CoS-E、COPA-SSE等，以及通过GPT-3.5编辑的版本。每条解释均由五名人类评分者进行评估，评分结果经过多数投票后汇总，形成了最终的多数投票评分和详细的个体评分记录。

特点

ACORN数据集的显著特点在于其多维度的质量评估体系，涵盖了流畅性、充分性、简洁性和对比性等多个细粒度方面。此外，数据集不仅提供了多数投票的评分结果，还保留了每位评分者的详细评分记录，为研究者提供了丰富的分析维度。数据集的多样性体现在其混合了多种来源的解释样本，确保了数据的广泛性和代表性。

使用方法

ACORN数据集的使用方法简便直观，用户可以通过加载`ACORN.jsonl`文件直接访问数据。每条记录包含了问题文本、答案选项、正确答案索引、解释文本、多数投票评分以及个体评分等信息。研究者可以根据需要提取特定字段进行分析，如问题来源、解释来源等。此外，数据集还提供了详细的评分标准和来源信息，便于用户进行深入的研究和应用。

背景与挑战

背景概述

ACORN数据集由Ana Brassard等人于2024年提出，旨在解决常识推理解释评估中的核心问题。该数据集包含了3500条由人类撰写和大型语言模型生成的解释，并由人类对这些解释进行了多方面的质量评分。ACORN的创建不仅为常识推理领域提供了丰富的资源，还为解释生成和评估提供了新的视角。通过引入细粒度的质量评估标准，如流畅性、充分性、最小性和对比性，ACORN为相关领域的研究提供了有力的支持，推动了常识推理解释评估的进一步发展。

当前挑战

ACORN数据集在构建过程中面临多项挑战。首先，如何确保解释的多样性和质量是一个关键问题，因为解释的质量依赖于人类的主观判断，且不同应用场景对解释的要求各异。其次，数据集的构建涉及多个来源的解释，包括ECQA、CoS-E、COPA-SSE等，如何有效整合这些不同来源的数据并保持一致性是一个技术难题。此外，细粒度的质量评估标准需要精确的标注和一致的评分，这对标注者的专业性和一致性提出了高要求。最后，如何平衡数据集的规模与质量，确保数据集在实际应用中的有效性，也是ACORN面临的重要挑战。

常用场景

经典使用场景

ACORN数据集在常识推理解释评估领域中具有广泛的应用前景。其经典使用场景主要体现在对自然语言处理模型生成的解释进行质量评估。通过提供3500条人类撰写和LLM生成的解释，并附有细致的方面评分，ACORN使得研究者能够深入分析解释的流畅性、充分性、简洁性和对比性，从而优化模型的解释生成能力。

解决学术问题

ACORN数据集解决了在常识推理领域中解释质量评估的难题。通过提供多方面的评分标准，该数据集帮助研究者量化解释的各个质量维度，如流畅性、充分性、简洁性和对比性。这不仅提升了模型解释的透明度和可解释性，还为未来的自然语言处理研究提供了宝贵的基准数据，推动了该领域的技术进步。

衍生相关工作

ACORN数据集的发布激发了众多相关研究工作。研究者们利用ACORN进行模型解释生成能力的评估和改进，推动了自然语言处理领域的发展。此外，ACORN的多方面评分方法也被应用于其他解释性任务，如法律文本解释和医疗诊断解释，展示了其在不同领域中的广泛适用性。这些衍生工作不仅丰富了ACORN的应用场景，也为未来的研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集