DELPHI

Hugging Face2024-07-11 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/walledai/DELPHI

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含以下特征：prompt（字符串类型）、controversial（布尔类型）、r1（float64类型）和r2（float64类型）。数据集分为训练集（train），包含29200个样本，总大小为2552751字节。数据集的下载大小为1514640字节。数据集配置为默认（default），训练数据文件位于data/train-*路径。

创建时间：

2024-07-03

原始信息汇总

数据集概述

数据特征

prompt: 数据类型为字符串（string）。
controversial: 数据类型为布尔值（bool）。
r1: 数据类型为浮点数（float64）。
r2: 数据类型为浮点数（float64）。

数据分割

train: 包含29200个样本，占用2552751字节。

数据集大小

下载大小: 1514640字节。
数据集大小: 2552751字节。

配置

default: 包含训练数据文件，路径为data/train-*。

搜集汇总

数据集介绍

构建方式

DELPHI数据集基于Quora Question Pairs Dataset进行扩展构建，旨在评估大型语言模型在处理争议性问题时的表现。数据集的构建过程涉及从Quora问题对中筛选出具有争议性的问题，并通过多轮人工评审为每个问题标注共识标签。评审过程遵循严格的指导原则，以确保能够准确捕捉问题的争议性。最终，数据集包含近30,000个数据点，每个数据点均包含问题文本、争议性标签以及两个评分指标。

特点

DELPHI数据集的特点在于其专注于争议性问题的标注与评估。每个数据点不仅包含问题文本，还标注了该问题是否具有争议性，并提供了两个评分指标（r1和r2），用于量化争议的程度。数据集的设计旨在挑战模型在知识时效性、安全性、公平性和偏见等方面的表现。通过提供多轮人工评审的共识标签，DELPHI为研究大型语言模型在复杂社会议题中的表现提供了高质量的基准数据。

使用方法

DELPHI数据集主要用于评估大型语言模型在处理争议性问题时的表现。研究人员可以通过加载数据集，使用其中的问题文本和争议性标签来测试模型在回答争议性问题时的表现。数据集中的评分指标（r1和r2）可用于量化模型回答的争议程度，从而帮助研究者分析模型在知识时效性、安全性、公平性和偏见等方面的表现。此外，数据集还可用于训练和微调模型，以提高其在处理复杂社会议题时的能力。

背景与挑战

背景概述

DELPHI数据集由Apple Inc.的研究团队于2023年推出，旨在评估大型语言模型（LLMs）在处理争议性问题时的表现。该数据集基于Quora Question Pairs Dataset构建，包含近30,000个数据点，每个数据点均经过多人评审并附有共识标签，以捕捉争议性问题的本质。研究团队通过系统化分析LLMs对争议性问题的回应，揭示了模型在知识时效性、安全性、公平性和偏见等方面的表现。该数据集的发布为LLMs在复杂社会议题中的理解与处理提供了重要的研究基础，推动了相关领域的进一步发展。

当前挑战

DELPHI数据集在构建与应用过程中面临多重挑战。首先，争议性问题本身具有高度主观性和动态性，如何定义并标注争议性成为数据集构建的核心难题。其次，LLMs在处理争议性问题时可能表现出知识过时、偏见或不当回应，这要求数据集能够全面覆盖多样化的社会议题，并确保标注的准确性与一致性。此外，数据集的构建还需考虑伦理与隐私问题，避免引入敏感信息或不当内容。这些挑战不仅影响了数据集的构建质量，也对LLMs在实际应用中的表现提出了更高的要求。

常用场景

经典使用场景

DELPHI数据集主要用于评估大型语言模型（LLMs）在处理具有争议性议题时的表现。通过提供近30,000个数据点，每个数据点都包含多个人类评审的共识标签，该数据集能够有效捕捉争议性问题的复杂性。研究人员可以利用这些数据来测试模型在面对社会热点问题时的反应，从而揭示模型在知识更新、安全性、公平性和偏见等方面的表现。

衍生相关工作

DELPHI数据集的发布催生了一系列相关研究，特别是在LLMs的伦理和社会责任领域。例如，基于DELPHI的研究工作探讨了模型在不同文化背景下的偏见表现，以及如何通过数据增强和模型微调来减少偏见。此外，该数据集还被用于开发新的评估框架，以更全面地衡量模型在处理争议性问题时的表现，推动了LLMs在复杂社会议题中的应用研究。

数据集最近研究