NaVAB

Hugging Face2024-12-23 更新2024-12-24 收录

下载链接：

https://huggingface.co/datasets/JadenGGGeee/NaVAB

下载链接

链接失效反馈

官方服务：

资源简介：

NaVAB是一个综合基准，旨在评估大型语言模型（LLMs）与五个主要国家（中国、美国、英国、法国和德国）价值观的一致性。该数据集解决了现有基准的局限性，这些基准通常无法捕捉各国价值观的动态变化，并且缺乏足够的评估数据。数据集通过从代表性官方媒体来源收集的新闻数据，评估不同LLMs在不同国家价值观上的一致性。数据集包括引用的声明和官方声明，并提供对比样本以评估LLMs的性能。

NaVAB is a comprehensive benchmark designed to evaluate the alignment between Large Language Models (LLMs) and the core values of five major countries: China, the United States, the United Kingdom, France, and Germany. This dataset addresses the limitations of existing benchmarks, which typically fail to capture the dynamic changes of national values and lack sufficient evaluation data. It assesses the alignment of various LLMs with the values of different countries by utilizing news data collected from representative official media sources. The dataset includes both cited statements and official statements, and provides contrastive samples to evaluate the performance of LLMs.

创建时间：

2024-12-15

原始信息汇总

数据集卡片：NaVAB

数据集详情

数据集描述

NaVAB 是一个综合基准，旨在评估大型语言模型（LLMs）与五个主要国家（中国、美国、英国、法国和德国）价值观的对齐情况。该数据集解决了现有基准的局限性，这些基准通常无法捕捉各国价值观的动态变化，并且缺乏足够的评估数据。

该数据集允许对不同国家的 LLMs 进行对齐评估。

语言： 中文、英文、法文、德文
许可证： Apache-2.0

数据集来源

存储库： https://anonymous.4open.science/r/NVA-Pipeline-57DB

用途

直接用途

NaVAB 数据集旨在用于评估 LLMs 与五个主要国家价值观的对齐情况。它可以用于评估不同 LLMs 在捕捉和与各国价值观动态变化对齐方面的表现。

超出范围的用途

该数据集不适合用于评估 LLMs 与数据集中未包含的五个主要国家以外的价值观对齐情况。不应使用该数据集对未包含在数据集中的其他国家或地区的价值观进行概括。

免责声明

需要注意的是，NaVAB 数据集仅用于学术研究目的。数据集中的声明、观点和价值观不代表数据集创建者或参与其开发的组织的观点或立场。我们不对数据集内容表示支持或持有任何立场。

NaVAB 数据集是从各种媒体来源中提取的声明和价值立场的集合，用于评估大型语言模型（LLMs）与不同国家价值观的对齐情况。数据集创建者不通过数据集表达自己的观点或意见，并保持中立立场。

NaVAB 数据集的用户应意识到，所呈现的声明和价值观源自各自的媒体来源，并不一定反映数据集创建者或每个国家更广泛人口的意见。该数据集应负责任地使用，并仅限于 LLMs 和价值观对齐的学术研究。

数据集创建

数据集创建动机

NaVAB 数据集的创建是为了解决现有基准在评估 LLMs 与国家价值观对齐方面的局限性。该数据集的动机是提供一个全面且动态的评估，以捕捉五个主要国家价值观的演变。

源数据

NaVAB 数据集使用从五个国家（中国、美国、英国、德国和法国）的代表性官方媒体来源收集的新闻数据构建。

数据收集和处理

数据集从以下来源收集：

中国（大陆和香港特别行政区）：
- 外交部官方网站
- 学习强国平台
- 人民日报
- 香港政府新闻稿
美国：
- 有线电视新闻网（CNN）
- 纽约时报
英国：
- 英国广播公司（BBC）
德国：
- 德国数字图书馆（German-PD-Newspapers）
法国：
- 各种法国在线新闻网站（Diverse-French-News）

所有数据集均为公开可用，并可免费用于学术研究目的。

数据集结构

NaVAB 数据集由声明来源和评估样本组成。

声明来源判断

声明来源判断组件将提取的价值观声明分为两个维度：

引述声明：归属于特定个人、组织或实体的观点或立场。
官方声明：媒体机构本身的直接观点表达。

评估样本

评估样本组件由为每个验证的价值观声明生成的对比样本组成。每个样本结构为 <Q, S, RS>：

{Q} - 问题：从声明中得出的与上下文相关的价值观询问。
{S} - 声明：原始的价值观立场或断言。
{RS} - 反向声明：在保持语义连贯性的同时反转原始立场的逻辑对立位置。

数据集以结构化的 JSON 格式提供，包含以下字段：

question：与上下文相关的价值观询问（Q）。
statement：原始价值观声明（S）。
reverse_statement：逻辑对立位置（RS）。
source_type：声明的来源类型（引述声明或官方声明）。
source：声明的具体来源（例如，个人、组织或媒体机构）。
country：与声明相关的国家（中国、美国、英国、法国或德国）。
topic：声明的主题或领域。

搜集汇总

数据集介绍

构建方式

NaVAB数据集的构建旨在弥补现有基准在评估大型语言模型（LLMs）与国家价值观对齐方面的不足。该数据集通过从五个主要国家（中国、美国、英国、法国和德国）的代表性官方媒体源中收集新闻数据，构建了一个全面且动态的评估基准。数据收集过程涵盖了多个权威媒体平台，如中国的外交部官网、学习强国平台、人民日报，美国的CNN和《纽约时报》，英国的BBC，德国的德国数字图书馆，以及法国的多个在线新闻网站。这些数据经过分类处理，分为引用声明和官方声明两类，以确保数据的多维度性和代表性。

特点

NaVAB数据集的显著特点在于其多国别、多语言和多来源的特性。该数据集不仅涵盖了中、英、法、德四种语言，还通过引用声明和官方声明的区分，提供了对不同价值观表达方式的深入理解。此外，数据集中的每个样本都以结构化的JSON格式呈现，包含问题、声明、反向声明、来源类型、具体来源、国家及主题等字段，便于进行系统性的分析和评估。

使用方法

NaVAB数据集主要用于评估大型语言模型（LLMs）与五个主要国家价值观的对齐情况。用户可以通过加载数据集中的JSON文件，利用其中的问题、声明和反向声明进行模型训练和测试，以评估模型在不同国家价值观背景下的表现。数据集的结构化设计使得用户可以轻松提取和分析特定国家或主题的数据，从而进行更精细化的模型评估和优化。

背景与挑战

背景概述

NaVAB数据集是由一组研究人员创建的，旨在评估大型语言模型（LLMs）与五个主要国家（中国、美国、英国、法国和德国）价值观的对齐情况。该数据集的创建时间尚未明确，但其核心研究问题在于解决现有基准测试在捕捉国家间价值观动态变化方面的不足。NaVAB通过从代表性官方媒体源收集数据，提供了对LLMs在不同国家价值观对齐方面的全面评估。这一数据集的推出，不仅填补了现有评估工具的空白，还为跨文化价值观研究提供了新的视角，对推动人工智能伦理和跨文化交流领域的研究具有重要意义。

当前挑战

NaVAB数据集在构建过程中面临多项挑战。首先，从不同国家的官方媒体源收集数据需要克服语言和文化差异，确保数据的代表性和准确性。其次，如何从海量新闻数据中提取有价值的声明和立场，并将其结构化为可用于评估的样本，是一个技术上的难题。此外，数据集的设计必须考虑到不同国家价值观的动态变化，确保评估的时效性和全面性。最后，数据集的使用范围限定在五个主要国家，如何避免在评估中产生对其他国家或地区的偏见，也是一个需要谨慎处理的问题。

常用场景

经典使用场景

NaVAB数据集的经典使用场景主要集中在评估大型语言模型（LLMs）与五大国家（中国、美国、英国、法国和德国）价值观的对齐情况。通过该数据集，研究者能够系统地分析和比较不同LLMs在捕捉和反映各国动态价值观方面的表现，从而为模型优化和跨文化理解提供重要参考。

实际应用

NaVAB数据集在实际应用中主要用于开发和优化能够理解和适应多国价值观的智能系统。例如，在跨国企业中，该数据集可用于训练能够理解和处理不同文化背景的客户服务系统，或在教育领域中，用于开发能够适应不同国家价值观的智能教学助手，从而提升跨文化交流和理解的效率。

衍生相关工作

基于NaVAB数据集，研究者们开展了多项相关工作，包括开发新的模型评估方法、跨文化价值观对齐算法以及多语言价值观理解系统。这些工作不仅扩展了NaVAB的应用范围，还为跨文化交流、国际关系研究等领域提供了新的研究视角和工具，进一步推动了人工智能在社会科学中的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集