PRISM - 人类反馈多元文化对齐数据集

Name: PRISM - 人类反馈多元文化对齐数据集
Creator: 牛津大学、宾夕法尼亚大学、MeatAI等
Published: 2024-04-24 16:15:11
License: 暂无描述

github2024-04-24 更新2024-06-19 收录

下载链接：

https://github.com/HannahKirk/prism-alignment

下载链接

链接失效反馈

官方服务：

资源简介：

PRISM数据集由牛津大学、宾夕法尼亚大学、MeatAI等机构联合构建，是一个开创性的多语言反馈数据集，旨在深入探索和理解大型语言模型（LLMs）的主观和多元文化对齐问题。该数据集包含了来自75个国家的1500名不同参与者的背景信息、偏好声明，以及他们在与21个LLMs进行的8011次实时对话的反馈。PRISM数据集以其广泛的地理和人口统计参与度，为AI发展中的人类反馈数据提供了新的视角，它不仅包含两个具有代表性的样本（英国和美国），以理解集体福祉，还通过将每个评分链接到详细的参与者档案，允许研究个性化和样本偏差。此外，PRISM强调了在价值负载和有争议的话题上的对话多样性、偏好多样性以及福利结果，展示了人类在设定对齐规范时的重要性。该数据集旨在通过这些详细的数据，探索和理解人们对于AI语言模型行为的偏好和期望，以及如何在设计和开发中实现更广泛的参与和代表性。

The PRISM dataset, jointly constructed by the University of Oxford, the University of Pennsylvania, MeatAI, and other institutions, is a groundbreaking multilingual feedback dataset aimed at deeply exploring and understanding the subjective and multicultural alignment issues of large language models (LLMs). This dataset includes background information, preference statements from 1,500 participants across 75 countries, and their feedback from 8,011 real-time conversations with 21 LLMs. With its extensive geographic and demographic participation, the PRISM dataset offers a new perspective on human feedback data in AI development. It not only includes two representative samples (the UK and the US) to understand collective well-being but also allows for the study of personalization and sample bias by linking each rating to detailed participant profiles. Furthermore, PRISM emphasizes dialogue diversity, preference diversity, and welfare outcomes on value-laden and controversial topics, showcasing the importance of human input in setting alignment norms. The dataset aims to explore and understand people's preferences and expectations regarding the behavior of AI language models, as well as how to achieve broader participation and representation in design and development through these detailed data.

提供机构：

牛津大学、宾夕法尼亚大学、MeatAI等

创建时间：

2024-04-24

原始信息汇总

数据集概述

数据集名称

PRISM Alignment Project

数据集描述

PRISM是一个数据集，通过调查多样化的参与者，将他们对大型语言模型（LLMs）实时交互的评价与其个人特征和偏好进行映射。

数据集格式

调查数据 (data/survey.jsonl)
- 包含用户对LLM行为偏好的回答、对LLMs的熟悉度、自我描述及基本人口统计信息。
- 每行代表一个用户，通过user_id标识。
对话数据 (data/conversations.jsonl)
- 记录参与者与LLMs的多轮对话及反馈。
- 每行代表一次对话，通过conversation_id标识，可通过user_id关联到用户调查资料。
- 对话历史以字典列表形式存储在conversation_history列中。
语句数据 (utterances.jsonl)
- 每行代表一次评分过的语句（人类输入 - 模型响应 - 评分）。
- 通过utterance_id标识，可与对话数据通过conversation_id或调查数据通过user_id关联。
- 模型响应和评分以长格式存储。
元数据 (data/metadata/metadata.jsonl)
- 每行包含文本实例及其语言检测、个人或私密信息（PII）检测和审核标记。

数据集许可证

人类编写的文本（包括提示）遵循Creative Commons Attribution 4.0 International License (CC-BY-4.0)。
模型响应遵循Creative Commons Attribution-NonCommercial 4.0 International License (CC-BY-NC-4.0)。

引用信息

论文引用：

@misc{kirk2024PRISM, title={The PRISM Alignment Project: What Participatory, Representative and Individualised Human Feedback Reveals About the Subjective and Multicultural Alignment of Large Language Models}, author={Hannah Rose Kirk and others}, year={2024}, url={http://arxiv.org/abs/2404.16019}, }
数据集引用：

@misc{kirk2024PRISMdataset, author={Hannah Rose Kirk and others}, title={The PRISM Alignment Dataset}, year={2024}, url={https://huggingface.co/datasets/HannahRoseKirk/prism-alignment}, doi={10.57967/hf/2113}, }

搜集汇总

数据集介绍

构建方式

PRISM数据集的构建基于对多元文化背景下人类反馈的深入调查。首先，通过一个详尽的问卷收集了参与者的个人偏好、对大型语言模型（LLMs）的熟悉程度、自我描述及基本人口统计信息。随后，参与者与LLMs进行实时对话，并对其互动体验进行评分。这些数据被整理成两个主要jsonl文件：‘survey.jsonl’和‘conversations.jsonl’，分别记录问卷回答和对话反馈。此外，为了满足不同分析需求，还提供了‘utterances.jsonl’和‘metadata.jsonl’文件，分别以长格式和元数据形式呈现对话内容和文本实例的附加信息。

使用方法

使用PRISM数据集时，研究者可以首先通过‘survey.jsonl’文件了解参与者的背景和偏好，然后利用‘conversations.jsonl’文件分析具体的对话互动。对于需要特定格式的分析，可以使用‘utterances.jsonl’文件进行长格式分析，或通过提供的代码将对话数据转换为宽格式。此外，‘metadata.jsonl’文件提供了每个文本实例的附加信息，如语言检测和PII检测，有助于更全面的数据处理和分析。在使用过程中，请确保遵循数据集的许可协议，并在研究成果中正确引用PRISM数据集。

背景与挑战

背景概述

PRISM数据集，全称为人类反馈多元文化对齐数据集，由Hannah Rose Kirk及其合作者于2024年创建。该数据集的核心研究问题在于通过多样化的调查数据，评估大型语言模型（LLMs）在不同文化背景下的主观对齐情况。PRISM通过收集来自不同文化背景的参与者的反馈，将这些反馈与LLMs的实时交互数据相结合，旨在揭示LLMs在多元文化环境中的表现。这一研究不仅深化了对LLMs在跨文化交流中的理解，也为未来模型优化提供了宝贵的数据支持。

当前挑战

PRISM数据集在构建过程中面临多项挑战。首先，确保数据集的多样性和代表性是一个主要挑战，因为需要从不同文化背景的参与者中收集数据，以反映全球多元文化的复杂性。其次，数据隐私和安全问题也是一大挑战，特别是在处理包含个人信息的调查数据时，必须严格遵守数据保护法规。此外，数据格式的多样性要求研究人员在分析过程中进行复杂的数据转换和处理，以适应不同的分析需求。最后，模型的主观对齐评估需要精细的反馈机制和评分标准，这增加了数据集构建和分析的复杂性。

常用场景

经典使用场景

在自然语言处理领域，PRISM数据集的经典使用场景主要集中在大型语言模型（LLMs）的多元文化对齐研究中。通过分析用户对LLMs交互的反馈，研究者能够深入探讨不同文化背景下用户对模型行为的偏好和期望，从而优化模型的跨文化适应性和用户满意度。

解决学术问题

PRISM数据集解决了在大型语言模型开发中常见的多元文化对齐问题。通过收集和分析来自不同文化背景用户的反馈，该数据集为研究者提供了一个独特的视角，帮助他们理解并解决模型在不同文化环境中的表现差异，进而推动跨文化交流和理解的研究进展。

实际应用

在实际应用中，PRISM数据集被广泛用于开发和优化面向全球用户的语言模型。例如，在多语言客服系统中，通过分析PRISM数据集，开发者可以定制化模型的响应策略，以更好地满足不同文化背景用户的需求，提升用户体验和满意度。

数据集最近研究