five

LLM-GLOBE|AI文化对齐数据集|文化价值评估数据集

收藏
arXiv2024-11-09 更新2024-11-14 收录
AI文化对齐
文化价值评估
下载链接:
http://arxiv.org/abs/2411.06032v1
下载链接
链接失效反馈
资源简介:
LLM-GLOBE数据集由清华大学创建,旨在评估大型语言模型(LLM)输出的文化价值系统。该数据集基于GLOBE框架,包含17370条人类调查响应,涵盖62个社会和文化。数据集内容丰富,涉及九个文化价值维度,如不确定性规避、权力距离等。创建过程结合了文化心理学理论和实证验证方法,确保数据集的全球相关性和文化细微差异。该数据集主要应用于AI文化对齐研究,旨在解决AI输出与人类文化价值系统的对齐问题,促进AI技术在多元文化背景下的有效部署。
提供机构:
清华大学
创建时间:
2024-11-09
AI搜集汇总
数据集介绍
main_image_url
构建方式
LLM-GLOBE数据集的构建基于文化心理学理论和经验验证的GLOBE框架,旨在评估大型语言模型(LLMs)中嵌入的文化价值系统。研究团队设计了一种新颖的‘LLMs-as-a-Jury’流水线,通过自动化评估开放式内容,以实现大规模概念层面的分析。该数据集包括封闭式和开放式两种提示设计,分别利用GLOBE调查问卷和手动编写的开放式问题,涵盖了九个文化维度。
特点
LLM-GLOBE数据集的特点在于其理论基础的严谨性和方法的创新性。通过GLOBE框架,数据集能够捕捉到细微的文化差异,并提供了一个可扩展的工具来概念化和比较不同文化。此外,‘LLMs-as-a-Jury’协议的引入,使得对开放式生成内容的评估更加自动化和客观,减少了人为偏见的影响。
使用方法
LLM-GLOBE数据集的使用方法包括对封闭式和开放式提示的响应进行评分和分析。研究者可以利用该数据集来比较不同文化背景下开发的LLMs的文化价值系统,评估其与人类文化价值观的契合度。此外,数据集还可用于开发和测试新的文化敏感型AI模型,以确保其在全球范围内的适用性和文化适应性。
背景与挑战
背景概述
LLM-GLOBE数据集由清华大学和微软研究院的研究人员于2024年创建,旨在评估大型语言模型(LLMs)输出中嵌入的文化价值观。该数据集的核心研究问题是探索和量化LLMs在不同文化背景下的价值系统,特别是中美两国的LLMs。通过结合文化心理学理论和GLOBE框架,LLM-GLOBE为研究者提供了一个系统化的工具,用于分析和比较LLMs的文化价值系统。这一研究不仅填补了当前LLMs文化价值评估的空白,还为未来的人工智能模型开发、评估和部署提供了重要的参考。
当前挑战
LLM-GLOBE数据集在构建过程中面临多项挑战。首先,如何从LLMs的输出中提取和评估嵌入的文化价值观是一个复杂的问题,因为模型并未明确表达其对特定文化价值的偏好。其次,现有的评估机制,如通过自动评分或人工检查开放生成的响应,难以保证评判的平衡性和客观性。此外,大多数研究在设计提示时仅限于封闭式或简短回答问题,限制了模型输出的质量和深度。最后,如何确保多语言提示的准确性和一致性也是一个重要的挑战。这些问题的解决对于提升LLMs的文化适应性和公平性至关重要。
常用场景
经典使用场景
LLM-GLOBE数据集的经典使用场景在于评估大型语言模型(LLMs)输出的文化价值观。通过采用文化心理学理论和GLOBE框架,该数据集提供了一个系统化的方法来量化和比较不同文化背景下LLMs的价值观。具体应用包括对中美两国LLMs的文化价值观进行对比分析,识别模型输出中的文化偏见,并提出改进策略以增强模型的文化适应性。
解决学术问题
LLM-GLOBE数据集解决了当前学术研究中对LLMs文化价值观评估的不足。传统研究多集中在减少有害或偏见内容,而忽视了文化价值观的深入探讨。该数据集通过引入GLOBE框架,提供了评估LLMs文化价值观的基准,填补了这一研究空白,有助于推动AI与人类价值观的对齐研究。
衍生相关工作
LLM-GLOBE数据集的提出催生了一系列相关研究工作。例如,有研究利用该数据集开发了新的文化敏感性评估工具,用于监测和改进LLMs的社会意识。此外,还有研究探讨了如何通过调整模型参数和训练数据,来增强LLMs的文化适应性。这些衍生工作进一步推动了AI文化对齐和跨文化协作的研究进展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录