ValueConsistency

Hugging Face2024-07-31 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/jlcmoore/ValueConsistency

下载链接

链接失效反馈

官方服务：

资源简介：

ValueConsistency数据集包含争议性和非争议性问题，涉及英语、中文（普通话）、德语和日语，涵盖美国、中国、德国和日本的话题。该数据集通过GPT-4生成并经过人工验证，旨在研究模型在价值导向问题上的跨语言和跨国家的一致性。数据集的字段包括争议性、语言、国家、原始问题、英语翻译、话题、英语话题翻译、选项、问题和是否为重述等。

创建时间：

2024-07-31

原始信息汇总

数据集卡片：ValueConsistency

数据集概述

ValueConsistency 数据集包含争议性和非争议性问题，涉及英语、中文、德语和日语，主题涵盖美国、中国、德国和日本。该数据集由 GPT-4 生成并通过人工验证。

数据集详情

数据集描述

创建者： Jared Moore, Tanvi Desphande, Diyi Yang
语言： 英语、中文（普通话）、德语、日语
许可证： MIT

数据集结构

数据集包含以下字段：

controversial：布尔值，表示问题是否具有争议性。
language：字符串，问题所用语言。
country：字符串，问题主题生成的国家。
original：字符串，问题原始文本。
original_english：字符串，original 的英文翻译。
topic：字符串，问题主题。
topic_english：字符串，topic 的英文翻译。
options：字典，问题的可能答案及其立场。
question：字符串，问题文本。
rephrase：布尔值，表示 question 是否等于 original。

数据集创建

目的： 测试模型在不同语言和国家中对价值导向问题的回答一致性。
数据来源： 所有问题、主题、改写和翻译均由 GPT-4 生成。
验证： 通过众包工作者验证改写的准确性。
标注者： 美国亚马逊土耳其机械工。

偏见、风险和限制

数据集可能未涵盖所有必要的文化细微差别，且可能存在未捕捉到的额外不一致性或偏见。由于使用 GPT-4 生成内容，可能无法完全代表更广泛的空间。

建议

不应假设模型对改写问题或同一主题内的问题给出相同的答案。

引用

@misc{moore2024largelanguagemodelsconsistent, title={Are Large Language Models Consistent over Value-laden Questions?}, author={Jared Moore and Tanvi Desphande and Diyi Yang}, year={2024}, eprint={2407.02996}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.02996}, }

搜集汇总

数据集介绍

构建方式

ValueConsistency数据集的构建过程主要依赖于GPT-4的生成能力，涵盖了英语、中文、德语和日语四种语言。数据集的生成包括问题、话题、改写和翻译等多个环节，所有内容均由GPT-4生成。为确保数据的准确性，生成的内容经过人工验证，特别是通过亚马逊Mechanical Turk平台的美国工人进行改写准确性的验证。尽管数据集在英语语境下进行了较为严格的审查，但其他语言的改写一致性可能未得到同等程度的验证。

特点

ValueConsistency数据集的特点在于其多语言和多文化的覆盖范围，涵盖了美国、中国、德国和日本等国家的争议性和非争议性问题。数据集中的每个问题都标注了其是否具有争议性、所属语言、国家、原始问题文本、英文翻译、话题及其英文翻译等信息。此外，每个问题还提供了可能的答案选项及其立场，便于研究者分析模型在不同文化和语言背景下的表现。数据集的多样性和细致标注使其成为研究模型在价值负载问题上一致性的理想工具。

使用方法

ValueConsistency数据集的主要用途是研究大型语言模型在价值负载问题上的一致性表现。研究者可以将该数据集与其他类似数据集结合，构建基准测试，或扩展至更多语言。数据集的结构清晰，包含多个字段，便于研究者根据语言、国家、话题等维度进行分析。使用该数据集时，研究者应注意模型在不同语言和文化背景下的表现可能存在差异，避免假设模型在所有情况下都能给出一致的回答。

背景与挑战

背景概述

ValueConsistency数据集由Jared Moore、Tanvi Deshpande和Diyi Yang等研究人员于2024年创建，旨在探讨大型语言模型在涉及价值观问题的跨语言和跨文化一致性。该数据集包含英语、中文、德语和日语四种语言的争议性和非争议性问题，涵盖美国、中国、德国和日本等国家的主题。数据集的生成基于GPT-4的提示，并经过人工验证。该数据集的研究背景源于对语言模型在复杂社会和文化情境下表现一致性的关注，特别是在涉及价值观的问题上，模型的回答是否能够保持逻辑和伦理上的一致性。该数据集为研究语言模型的跨文化一致性提供了重要的实验基础，并推动了相关领域的研究进展。

当前挑战

ValueConsistency数据集在构建和应用过程中面临多重挑战。首先，数据集的核心目标是评估语言模型在涉及价值观问题上的跨语言和跨文化一致性，然而，不同文化和语言背景下的价值观差异可能导致模型回答的不一致性，这对模型的泛化能力提出了较高要求。其次，数据集的生成依赖于GPT-4的提示，虽然经过人工验证，但仍可能存在语义偏差或文化误解，特别是在非英语语言中，由于缺乏全面的手动审查，可能导致更多的语义不一致性。此外，数据集的覆盖范围有限，未能涵盖所有文化背景和语言，这可能限制了其在更广泛场景中的应用。这些挑战不仅影响了数据集的全面性和准确性，也对后续研究的可靠性和普适性提出了更高的要求。

常用场景

经典使用场景

ValueConsistency数据集主要用于评估大型语言模型在处理涉及价值观的问题时的一致性。通过提供多种语言（如英语、中文、德语和日语）的争议性和非争议性问题，该数据集能够帮助研究人员测试模型在不同文化和语言背景下的表现。经典的使用场景包括模型的一致性测试、跨语言和跨文化的价值观一致性研究，以及模型在回答敏感问题时的稳定性评估。

衍生相关工作

基于ValueConsistency数据集，许多相关研究得以展开。例如，研究人员利用该数据集开发了新的模型评估框架，用于测试模型在跨文化和跨语言环境中的一致性。此外，该数据集还启发了关于模型偏见和公平性的深入研究，推动了多语言模型在敏感话题处理上的改进。这些衍生工作不仅丰富了自然语言处理领域的研究内容，也为模型的广泛应用提供了理论支持。

数据集最近研究