CULTURALBENCH|文化知识数据集|语言模型评估数据集

arXiv2024-10-04 更新2024-10-05 收录

文化知识

语言模型评估

下载链接：

https://hf.co/spaces/kellycyy/CulturalBench

下载链接

链接失效反馈

资源简介：

CULTURALBENCH是由华盛顿大学开发的用于评估大型语言模型（LLMs）文化知识的数据集。该数据集包含1227个高质量的人工编写和验证的问题，涵盖45个全球区域，包括孟加拉国、津巴布韦和秘鲁等代表性较弱的地区。问题涉及17个多样化的文化主题，如饮食偏好和问候礼仪。数据集的创建过程结合了AI辅助的红队测试和人工质量检查，确保了数据的多样性和挑战性。CULTURALBENCH旨在解决LLMs在跨文化知识评估中的不足，提供一个有效的基准来测试和改进模型的文化敏感性。

提供机构：

华盛顿大学

创建时间：

2024-10-04

AI搜集汇总

数据集介绍

构建方式

CULTURALBENCH的构建采用了AI辅助的红队数据收集和验证管道，确保了数据集的鲁棒性、多样性和挑战性。具体步骤包括：1) 通过AI辅助的红队数据收集，人类根据个人文化经验提供多样化的文化场景，AI助手将其转化为结构化问题；2) 人类质量检查，通过Prolific平台招募五名专家对每个问题进行验证；3) 基于多数投票的过滤，确保每个问题至少有四名专家达成一致意见。最终形成了包含1,227个高质量问题的数据集，涵盖45个全球区域和17个文化主题。

特点

CULTURALBENCH的特点在于其广泛的地域覆盖和主题多样性，包括南亚的孟加拉国、非洲的津巴布韦和南美的秘鲁等代表性地区。数据集中的问题类型分为单模式和多模式，分别对应单一正确答案和多个正确答案的情况，确保了模型在处理文化多样性时的全面性。此外，数据集通过严格的多数投票机制确保了问题的准确性和文化代表性。

使用方法

CULTURALBENCH提供了两种评估设置：CULTURALBENCH-Easy和CULTURALBENCH-Hard。CULTURALBENCH-Easy采用多项选择题形式，要求模型从四个选项中选择一个正确答案；CULTURALBENCH-Hard则将多项选择题转换为二元问题，要求模型对每个选项进行真假判断。通过这两种设置，研究者可以全面评估模型在不同文化知识测试中的表现，特别是在处理复杂和多答案问题时的能力。

背景与挑战

背景概述

CULTURALBENCH数据集由华盛顿大学和艾伦人工智能研究所的研究人员于近期创建，旨在评估大型语言模型（LLMs）在跨文化知识方面的表现。该数据集包含1,227个人类编写和验证的问题，涵盖45个全球区域，特别是包括了如孟加拉国、津巴布韦和秘鲁等代表性不足的地区。这些问题跨越17个多样化的主题，从饮食偏好到问候礼仪，旨在全面评估LLMs的文化知识。CULTURALBENCH的推出填补了现有文化知识基准的空白，为推动LLMs在多元文化环境中的应用提供了重要工具。

当前挑战

CULTURALBENCH数据集面临的挑战主要包括两个方面：首先，构建过程中需要确保问题的多样性和代表性，以覆盖全球不同文化和地区的细微差别，这要求高度的专业知识和广泛的文化背景。其次，评估LLMs在处理复杂文化问题时的表现，特别是那些具有多个正确答案的难题，揭示了模型在处理文化多样性方面的局限性。此外，数据集的验证过程依赖于少数专家的共识，这在某些文化区域可能存在样本不足的问题，影响了数据集的全面性和鲁棒性。

常用场景

经典使用场景

CULTURALBENCH 数据集的经典使用场景在于评估大型语言模型（LLMs）在跨文化知识方面的表现。通过提供1,227个由人类编写和验证的问题，覆盖45个全球区域，包括孟加拉国、津巴布韦和秘鲁等代表性不足的地区，该数据集能够有效评估LLMs在不同文化背景下的知识掌握情况。问题涵盖17个多样化的主题，从饮食偏好到问候礼仪，确保了评估的全面性和挑战性。

实际应用

在实际应用中，CULTURALBENCH 数据集可用于开发和优化面向全球用户的语言模型，特别是在需要高度文化敏感性的领域，如客户服务、跨文化交流和国际市场分析。通过使用该数据集进行模型训练和评估，企业可以确保其产品和服务在全球范围内更加适用和受欢迎，从而提升用户体验和市场竞争力。

衍生相关工作

CULTURALBENCH 数据集的推出激发了一系列相关研究和工作，特别是在跨文化语言模型评估和优化领域。例如，一些研究团队已经开始利用该数据集开发新的评估方法和模型训练策略，以提高LLMs在处理跨文化内容时的表现。此外，该数据集还促进了跨学科合作，吸引了语言学、计算机科学和社会学等领域的专家共同探讨和解决文化多样性在人工智能中的应用问题。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

animelist-dataset

一个基于JSON的动漫数据集，包含了最重要的元数据以及与其他多个动漫网站（如MAL、ANIDB、ANILIST、KITSU等）的交叉引用。数据集每周更新，涵盖了从10K到100K条记录的规模，主要语言为英语和日语，标签为'anime'。

huggingface 收录

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集，包含超过1.84亿条推文，覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档，可以完全重新构建，包括推文元数据且无缺失推文。数据集内容丰富，涵盖多种语言，主要用于情感分析和文本分类等任务。创建过程中，研究团队精心筛选了表情符号和表情，确保数据集的质量和多样性。该数据集的应用领域广泛，旨在解决社交媒体情感表达的长期变化问题，特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集，时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB，数据格式为excel。

国家地球系统科学数据中心收录