WALS-Bench

Name: WALS-Bench
Creator: Center za jezikovne vire in tehnologije Univerze v Ljubljani
Published: 2026-03-10 15:36:07
License: 暂无描述

Hugging Face2026-03-10 更新2026-03-11 收录

下载链接：

https://huggingface.co/datasets/cjvt/WALS-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

WALS-bench是一个基于世界语言结构图谱（WALS）的大规模多语言基准测试数据集，旨在评估大型语言模型中的元语言知识。该数据集覆盖了192个语言类型学特征，涉及2,660种语言。数据集提供了两种格式：格式1包含192个问题（每个特征一个问题），格式2包含76,475个问题（每个特征-语言组合一个问题）。每个问题都包含一个语言特征描述、可能的答案选项以及特定语言的真实答案。数据集分为训练集（134个特征）、验证集（29个特征）和测试集（29个特征）。数据以JSONL格式存储，包含特征ID、特征名称、领域、问题文本、可能答案和真实答案等信息。语言特征覆盖了词序、名词类别、简单从句、音系学、动词类别、词汇、形态学、名词句法、复杂句子、手语等多个领域。数据集采用CC BY 4.0许可协议，原始数据来自Max Planck进化人类学研究所的世界语言结构图谱。

提供机构：

Center za jezikovne vire in tehnologije Univerze v Ljubljani

创建时间：

2026-03-10

搜集汇总

数据集介绍

构建方式

在语言类型学研究领域，WALS-Bench基准测试的构建依托于世界语言结构图谱（WALS）这一权威资源。该数据集系统性地提取了WALS中的192个语言类型学特征，覆盖了2,660种世界语言，通过两种结构化格式进行组织：格式一将每个特征与所有相关语言的真值对应，形成192个综合性问题；格式二则进一步展开为每个特征-语言对，生成了76,475个独立问题。数据以JSONL格式存储，确保了机器可读性与扩展性，同时严格遵循CC BY 4.0许可协议，保障了学术使用的合规性与透明度。

特点

WALS-Bench的显著特点在于其广泛的跨语言覆盖与精细的类型学特征体系。数据集涵盖了从音系、词序到形态、句法等11个语言学领域，其中词序特征多达56项，全面反映了人类语言的多样性。每种语言均通过ISO 639-3代码进行标准化标识，确保了语言样本的准确性与可追溯性。基准测试设计了验证集、测试集与训练集，分别包含29、29与134个特征，这种划分支持了模型评估的稳健性与可重复性，为衡量大语言模型的元语言知识提供了系统化的多维框架。

使用方法

使用WALS-Bench进行评估时，研究者需根据任务需求选择相应数据格式。对于格式一，模型需针对给定特征问题，为列出的所有语言预测正确的类型学类别；格式二则直接提供特征-语言对的具体问题，要求模型从预设选项中选择答案。评估采用统一的提示模板，模型输出与WALS真值进行直接比对，以准确率作为核心指标。该基准适用于测试模型对语言结构规律的泛化能力，尤其适合用于分析多语言模型在类型学知识上的表现与局限。

背景与挑战

背景概述

WALS-Bench基准数据集于近年由研究团队构建，其核心依托于世界语言结构图谱的跨语言类型学数据库。该数据集旨在系统评估大规模语言模型在元语言学知识方面的掌握程度，覆盖全球2660种语言中的192项语言学特征，涉及音系、词序、形态及句法等多个语言学领域。通过将WALS中结构化的类型学特征转化为可量化的预测任务，该数据集为探究语言模型的跨语言归纳与推理能力提供了标准化测试平台，显著推动了计算语言学与类型学交叉领域的研究进展。

当前挑战

WALS-Bench所应对的核心领域挑战在于，如何精准评估语言模型对全球语言多样性的结构化知识的理解与泛化能力，这要求模型不仅能处理高资源语言，还需对低资源及濒危语言的类型特征具有稳健的推断性能。在数据集构建过程中，主要挑战包括：如何从WALS原始数据库中有效提取并规范化192项特征与数千种语言的对应关系，确保数据的一致性与完整性；以及如何设计合理的评估划分，平衡特征覆盖的广度与评估任务的可行性，避免因语言样本分布不均而引入评估偏差。

常用场景

经典使用场景

在语言类型学和计算语言学领域，WALS-Bench作为一个基于世界语言结构图谱的元语言知识评估基准，其经典使用场景在于系统性地测评大型语言模型对全球语言类型特征的掌握程度。该基准通过构建覆盖192个语言学特征和2,660种语言的标准化问答任务，要求模型根据特定语言的描述预测其类型学范畴，从而为模型的语言学知识表征能力提供量化评估框架。

解决学术问题

该数据集有效解决了计算语言学中关于语言模型元语言知识评估的若干核心问题。传统评估往往局限于少数主流语言，而WALS-Bench通过整合全球语言类型学数据库，使得研究者能够系统考察模型对音系、词序、形态等跨语言特征的泛化理解。其意义在于建立了连接计算模型与语言学理论的桥梁，推动了语言模型从表层模式匹配向深层语言规律认知的转变，为多语言人工智能的发展提供了关键评测工具。

衍生相关工作

围绕WALS-Bench衍生的经典研究工作主要集中在多语言模型的知识探针与能力评估方向。例如，研究者利用该基准分析了不同预训练策略对模型类型学知识获取的影响，探索了模型内部表征与语言学特征之间的关联性。此外，基于该基准的扩展研究还催生了跨语言迁移学习的新方法，以及针对语言演化规律的计算建模尝试，持续推动着语言技术与理论语言学的交叉创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集