Measurement System Datasets

Name: Measurement System Datasets
Creator: Center For Artificial Intelligence and Data Science, University of Würzburg, Germany
Published: 2025-06-03 16:12:28
License: 暂无描述

arXiv2025-06-03 更新2025-06-06 收录

下载链接：

https://github.com/MinhDucBui/MeasurementSystemBias

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由德国维尔茨堡大学人工智能与数据科学中心的研究团队创建，旨在评估大型语言模型在不同测量系统中的泛化能力。数据集包含来自不同国家和地区、反映多元文化背景的财政数据、食品价格和城市距离信息。研究通过该数据集探讨了LLMs在默认测量系统选择、跨系统准确性和推理能力方面的表现，揭示了模型在不同文化背景下提供准确信息的能力，以及可能存在的偏见和局限性。

This dataset was developed by a research team from the Center for Artificial Intelligence and Data Science at the University of Würzburg, Germany, with the goal of evaluating the generalization capabilities of large language models (LLMs) across different measurement systems. It includes financial data, food prices, and urban distance information from various countries and regions, reflecting diverse cultural backgrounds. Using this dataset, the study explores the performance of LLMs in terms of default measurement system selection, cross-system accuracy, and reasoning abilities, revealing the models' capability to provide accurate information across different cultural contexts, as well as potential biases and limitations.

提供机构：

Center For Artificial Intelligence and Data Science, University of Würzburg, Germany

创建时间：

2025-06-03

搜集汇总

数据集介绍

构建方式

Measurement System Datasets的构建基于多元文化背景下的测量系统差异，研究团队从世界银行、国际货币基金组织等权威机构收集了148个国家的财政数据、76个国家的食品价格数据以及多个国家的城市距离数据。数据涵盖2021年的GDP人均值、2010至2021年的食品价格以及城市间的直线或道路距离。为确保数据质量，研究团队采用了最优汇率转换和Haversine公式计算距离，同时通过多语言提示和本地化验证减少偏差。

特点

该数据集独特之处在于其覆盖了112种货币、10种重量系统和10种长度系统，包括主流和边缘文化中的测量单位。数据不仅包含常见的公制和英制单位，还纳入了韩国Geun、中国Jin等传统单位，反映了文化多样性。通过严格的统计分析和多模型验证，数据集揭示了LLMs在非主流测量系统中的性能下降问题，为文化适应性研究提供了量化依据。

使用方法

使用该数据集时，研究者可通过标准化提示模板测试LLMs在不同测量系统中的表现，例如要求模型将GDP转换为特定货币或计算异制单位下的食品价格。数据集支持三种评估模式：无推理基线、分步推理和思维链推理，用户可对比不同规模模型的表现差异。所有数据以结构化格式提供，包含原始值、转换率和地理坐标信息，便于复现实验或扩展研究。

背景与挑战

背景概述

Measurement System Datasets是由Minh Duc Bui等人于2025年提出的数据集，旨在研究大型语言模型（LLMs）在不同测量系统（如货币、长度和重量单位）下的表现。该数据集由约翰内斯古腾堡大学美因茨分校、曼海姆大学和维尔茨堡大学人工智能与数据科学中心的研究团队共同构建，核心研究问题是探索LLMs在处理跨文化测量系统时的泛化能力及其潜在的偏见。数据集包含来自世界银行、国际货币基金组织等多个权威来源的财政数据、食品价格和城市距离信息，覆盖了112种货币、10种长度系统和10种重量系统。该研究揭示了LLMs在处理非主流文化背景的测量系统时存在的性能下降问题，为提升语言模型的跨文化适应性和公平性提供了重要依据。

当前挑战

Measurement System Datasets面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，该数据集揭示了LLMs在处理非主流文化背景的测量系统时存在显著的性能下降，尤其是在低收入国家的货币转换和非常用单位系统的应用中表现不佳。此外，尽管通过推理方法（如思维链）可以部分缓解这一问题，但这会导致响应时间延长和计算成本显著增加，进一步加剧了资源匮乏地区用户的使用障碍。在构建过程中，研究人员需要整合来自多个国际组织的异构数据，并确保数据的时间一致性和地域覆盖的全面性。同时，处理历史测量单位和现代单位之间的转换也带来了额外的复杂性，特别是在缺乏标准化转换率的情况下。

常用场景

经典使用场景

Measurement System Datasets主要用于评估大型语言模型（LLMs）在不同文化背景下处理测量系统（如货币、长度和重量单位）的能力。该数据集通过提供多样化的测量系统转换任务，帮助研究者测试模型在跨文化语境中的准确性和稳定性。例如，研究者可以利用该数据集测试模型是否能够正确地将GDP数据从美元转换为其他货币，或将城市距离从公里转换为英里。

衍生相关工作

该数据集衍生了一系列关于LLMs文化偏差和多跳推理的研究。例如，后续工作探索了如何通过改进训练数据多样性来减少模型对主流测量系统的依赖；其他研究则聚焦于优化推理效率，以降低非主流测量系统用户的使用成本。这些工作进一步推动了LLMs在全球化应用中的公平性和实用性。

数据集最近研究