CulturalPalette

Hugging Face2024-12-19 更新2024-12-20 收录

下载链接：

https://huggingface.co/datasets/CulturalPalette/CulturalPalette

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来自论文《Cultural Palette: Pluralising Culture Alignment via Multi-Agent Palette》，用于文化对齐和多代理调色板的研究。数据集包含非洲、美洲、亚洲、欧洲、大洋洲的训练数据和测试数据，格式为jsonl。每个数据条目包含查询、响应和被拒绝的响应，用于生成关于特定大陆的文化、历史和细微差别的见解和上下文感知的回答。

创建时间：

2024-12-15

原始信息汇总

CulturalPalette 数据集

基本信息

许可证: GPL-3.0
任务类别:
- 问答
- 文本生成
标签:
- jsonl
- json

配置

默认配置:
- 训练集:
  - africa.jsonl
  - america.jsonl
  - asia.jsonl
  - europe.jsonl
  - oceania.jsonl
- 测试集: test.jsonl

数据集描述

该数据集是论文 "Cultural Palette: Pluralising Culture Alignment via Multi-Agent Palette" 的一部分。

引用

如果该数据集对您的研究有用，请按以下方式引用该论文： bibtex @article{yuan2024cultural, title={Cultural Palette: Pluralising Culture Alignment via Multi-agent Palette}, author={Yuan, Jiahao and Di, Zixiang and Zhao, Shangzixin and Naseem, Usman}, journal={arXiv preprint arXiv:2412.11167}, year={2024} }

数据格式

数据集的格式如下： json { "query": "You are a knowledgeable chatbot about {Continent A}, including its culture, history, and nuances, providing insightful and context-aware responses. {Query from PRISM}", "response": "{Continent A Preferred Response}", "rejected_response": "{Other Continents Preferred Responses}" }

数据集下载

可以通过 HuggingFace 下载该数据集： python from datasets import load_dataset dataset = load_dataset("yjh/CulturalPalette")

致谢

感谢 PRISM 对本数据集的重要贡献。

搜集汇总

数据集介绍

构建方式

CulturalPalette数据集的构建基于多源文化数据的整合，涵盖了非洲、美洲、亚洲、欧洲和大洋洲五大洲的文化、历史及细微差异。数据集通过PRISM项目的贡献，采用多代理调色板（Multi-Agent Palette）方法，实现了文化的多元化对齐。训练数据包括五个主要文件，分别对应不同大洲，而测试数据则单独存储于test.jsonl文件中，确保了数据集的全面性和多样性。

特点

该数据集的显著特点在于其跨文化多样性和语义深度。每个数据样本包含一个查询（query）、一个首选响应（response）以及多个被拒绝的响应（rejected_response），这些响应反映了不同文化背景下的偏好和差异。此外，数据集通过PCA（主成分分析）对PRISM和五色文化调色板数据集进行语义表示，进一步增强了其文化对齐的精确性。

使用方法

使用CulturalPalette数据集时，用户可以通过HuggingFace的datasets库进行加载，具体方法如提供的示例代码所示。数据集的格式清晰，每个样本包含查询、首选响应和被拒绝的响应，便于进行问答和文本生成任务。用户可以根据需要选择不同的配置文件，如默认配置，以获取相应的训练或测试数据。

背景与挑战

背景概述

CulturalPalette数据集由Yuan等人于2024年创建，旨在通过多代理调色板技术实现文化对齐的多元化。该数据集的核心研究问题是如何在多文化背景下，通过智能代理生成具有文化敏感性和上下文感知的回答。其主要研究人员包括Yuan, Jiahao、Di, Zixiang、Zhao, Shangzixin和Naseem, Usman，研究成果发表于arXiv预印本平台。CulturalPalette数据集的构建基于PRISM项目的贡献，涵盖了非洲、美洲、亚洲、欧洲和大洋洲的文化数据，对文化多样性研究和智能对话系统的发展具有重要影响。

当前挑战

CulturalPalette数据集在构建过程中面临多重挑战。首先，如何在不同文化背景下确保生成的回答具有高度的文化敏感性和上下文感知能力，是一个复杂的问题。其次，数据集的构建需要跨越多个大陆的文化数据，涉及数据收集、清洗和整合的难题。此外，如何有效地评估生成的回答在文化对齐方面的准确性和多样性，也是该数据集面临的重要挑战。这些挑战不仅涉及技术实现，还涉及对文化多样性的深刻理解和尊重。

常用场景

经典使用场景

CulturalPalette数据集在跨文化对话系统中展现了其经典应用场景。通过提供关于不同大陆（如非洲、美洲、亚洲、欧洲和澳洲）的文化、历史和细微差别的详尽信息，该数据集使得智能对话系统能够生成具有文化敏感性和上下文感知的响应。这种能力在多语言和多文化背景下的问答系统中尤为重要，能够有效提升用户体验和系统的文化适应性。

衍生相关工作

CulturalPalette数据集的发布激发了大量相关研究工作。研究者们基于该数据集开发了多种文化敏感型对话模型，如多代理文化对齐模型和跨文化文本生成模型。这些模型不仅在学术界引起了广泛关注，还在实际应用中展示了其优越性。此外，该数据集还促进了跨文化对话系统的评估标准和方法的发展，为未来的研究提供了坚实的基础。

数据集最近研究