five

CULTURALBENCH|文化知识数据集|语言模型评估数据集

收藏
arXiv2024-10-04 更新2024-10-05 收录
文化知识
语言模型评估
下载链接:
https://hf.co/spaces/kellycyy/CulturalBench
下载链接
链接失效反馈
资源简介:
CULTURALBENCH是由华盛顿大学开发的用于评估大型语言模型(LLMs)文化知识的数据集。该数据集包含1227个高质量的人工编写和验证的问题,涵盖45个全球区域,包括孟加拉国、津巴布韦和秘鲁等代表性较弱的地区。问题涉及17个多样化的文化主题,如饮食偏好和问候礼仪。数据集的创建过程结合了AI辅助的红队测试和人工质量检查,确保了数据的多样性和挑战性。CULTURALBENCH旨在解决LLMs在跨文化知识评估中的不足,提供一个有效的基准来测试和改进模型的文化敏感性。
提供机构:
华盛顿大学
创建时间:
2024-10-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
CULTURALBENCH的构建采用了AI辅助的红队数据收集和验证管道,确保了数据集的鲁棒性、多样性和挑战性。具体步骤包括:1) 通过AI辅助的红队数据收集,人类根据个人文化经验提供多样化的文化场景,AI助手将其转化为结构化问题;2) 人类质量检查,通过Prolific平台招募五名专家对每个问题进行验证;3) 基于多数投票的过滤,确保每个问题至少有四名专家达成一致意见。最终形成了包含1,227个高质量问题的数据集,涵盖45个全球区域和17个文化主题。
特点
CULTURALBENCH的特点在于其广泛的地域覆盖和主题多样性,包括南亚的孟加拉国、非洲的津巴布韦和南美的秘鲁等代表性地区。数据集中的问题类型分为单模式和多模式,分别对应单一正确答案和多个正确答案的情况,确保了模型在处理文化多样性时的全面性。此外,数据集通过严格的多数投票机制确保了问题的准确性和文化代表性。
使用方法
CULTURALBENCH提供了两种评估设置:CULTURALBENCH-Easy和CULTURALBENCH-Hard。CULTURALBENCH-Easy采用多项选择题形式,要求模型从四个选项中选择一个正确答案;CULTURALBENCH-Hard则将多项选择题转换为二元问题,要求模型对每个选项进行真假判断。通过这两种设置,研究者可以全面评估模型在不同文化知识测试中的表现,特别是在处理复杂和多答案问题时的能力。
背景与挑战
背景概述
CULTURALBENCH数据集由华盛顿大学和艾伦人工智能研究所的研究人员于近期创建,旨在评估大型语言模型(LLMs)在跨文化知识方面的表现。该数据集包含1,227个人类编写和验证的问题,涵盖45个全球区域,特别是包括了如孟加拉国、津巴布韦和秘鲁等代表性不足的地区。这些问题跨越17个多样化的主题,从饮食偏好到问候礼仪,旨在全面评估LLMs的文化知识。CULTURALBENCH的推出填补了现有文化知识基准的空白,为推动LLMs在多元文化环境中的应用提供了重要工具。
当前挑战
CULTURALBENCH数据集面临的挑战主要包括两个方面:首先,构建过程中需要确保问题的多样性和代表性,以覆盖全球不同文化和地区的细微差别,这要求高度的专业知识和广泛的文化背景。其次,评估LLMs在处理复杂文化问题时的表现,特别是那些具有多个正确答案的难题,揭示了模型在处理文化多样性方面的局限性。此外,数据集的验证过程依赖于少数专家的共识,这在某些文化区域可能存在样本不足的问题,影响了数据集的全面性和鲁棒性。
常用场景
经典使用场景
CULTURALBENCH 数据集的经典使用场景在于评估大型语言模型(LLMs)在跨文化知识方面的表现。通过提供1,227个由人类编写和验证的问题,覆盖45个全球区域,包括孟加拉国、津巴布韦和秘鲁等代表性不足的地区,该数据集能够有效评估LLMs在不同文化背景下的知识掌握情况。问题涵盖17个多样化的主题,从饮食偏好到问候礼仪,确保了评估的全面性和挑战性。
实际应用
在实际应用中,CULTURALBENCH 数据集可用于开发和优化面向全球用户的语言模型,特别是在需要高度文化敏感性的领域,如客户服务、跨文化交流和国际市场分析。通过使用该数据集进行模型训练和评估,企业可以确保其产品和服务在全球范围内更加适用和受欢迎,从而提升用户体验和市场竞争力。
衍生相关工作
CULTURALBENCH 数据集的推出激发了一系列相关研究和工作,特别是在跨文化语言模型评估和优化领域。例如,一些研究团队已经开始利用该数据集开发新的评估方法和模型训练策略,以提高LLMs在处理跨文化内容时的表现。此外,该数据集还促进了跨学科合作,吸引了语言学、计算机科学和社会学等领域的专家共同探讨和解决文化多样性在人工智能中的应用问题。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

马达加斯加岛 – 世界地理数据大百科辞条

马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。

国家对地观测科学数据中心 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。

github 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录