Estonian WinoGrande Dataset
收藏arXiv2025-11-21 更新2025-11-25 收录
下载链接:
https://huggingface.co/datasets/tartuNLP/winogrande_et
下载链接
链接失效反馈官方服务:
资源简介:
爱沙尼亚WinoGrande数据集是由塔尔图大学研究团队构建的常识推理基准测试集,作为英文原版WinoGrande的爱沙尼亚语本地化版本。该数据集包含1,767条经过专业翻译的测试样本,每个样本由包含两个名词的句子和待填充空白组成,要求模型基于常识推理选择正确名词。数据集通过翻译专家团队进行人工翻译、文化适应和错误校正,特别针对爱沙尼亚语语法特性(如14种格变化)和本土文化元素进行了优化处理。该数据集主要用于评估大型语言模型在爱沙尼亚语中的常识推理能力,解决跨语言自然语言理解中的语义消歧任务,为低资源语言的人工智能评估提供重要基准。
The Estonian WinoGrande dataset is a commonsense reasoning benchmark constructed by a research team from the University of Tartu, serving as the Estonian localized adaptation of the original English WinoGrande. This dataset contains 1,767 professionally translated test samples, each of which consists of a sentence with two nouns and a blank to be filled in, requiring models to select the correct noun based on commonsense reasoning. The dataset was manually translated, culturally adapted, and error-corrected by a team of translation experts, and specially optimized for the grammatical features of Estonian (such as its 14 case inflections) and local cultural elements. This dataset is primarily used to evaluate the commonsense reasoning abilities of large language models in Estonian, resolve semantic disambiguation tasks in cross-linguistic natural language understanding, and provide a critical benchmark for AI evaluation of low-resource languages.
提供机构:
塔尔图大学
创建时间:
2025-11-21
原始信息汇总
winogrande_et 数据集概述
基本信息
- 许可证: Apache 2.0
- 语言: 爱沙尼亚语 (et)
- 数据集名称: winogrande_et
- 规模: 1K<n<10K
数据集配置
human_translated(默认配置)
- 特征列:
- qID (字符串)
- sentence (字符串)
- option1 (字符串)
- option2 (字符串)
- corrected (整型)
- culturally_adapted (整型)
- ambiguous (整型)
- 数据划分:
- test: 1,767个样本,321,702字节
machine_translated
- 特征列:
- qID (字符串)
- sentence (字符串)
- option1 (字符串)
- option2 (字符串)
- answer (字符串)
- meaning_shift (整型)
- 数据划分:
- train: 1,024个样本,174,770字节
- dev: 256个样本,43,357字节
- test: 1,767个样本,302,235字节
machine_translated_advanced
- 特征列:
- qID (字符串)
- sentence (字符串)
- option1 (字符串)
- option2 (字符串)
- answer (字符串)
- meaning_shift (整型)
- 数据划分:
- test: 1,767个样本,298,779字节
few_shot_examples
- 数据文件:
- human_translated分割
- machine_translated分割
数据集描述
该数据集包含winogrande数据集的测试集,经过人工翻译和文化适应为爱沙尼亚语。同时包含GPT4o机器翻译版本用于比较,以及原始开发集的人工和机器翻译few-shot示例。
列说明
- 通用列: qID, sentence, option1, option2
- human_translated特有列:
- corrected: 标识原始示例是否被错误标记或被认为模糊而在翻译过程中被纠正
- culturally_adapted: 标识原始示例是否在翻译中适应文化相关性
- ambiguous: 标识至少2/3的人类标注者是否认为示例模糊
- 机器翻译特有列:
- meaning_shift: 标识机器翻译是否导致内容含义改变
模型性能
Generative 3-shot 结果
| 模型 | 人工适应准确率 | 机器翻译准确率 |
|---|---|---|
| gpt-4o-2024-05-13 | 0.8364 ± 0.0088 | 0.7951 ± 0.0096 |
| moonshotai/Kimi-K2-Instruct | 0.8138 ± 0.0093 | 0.7572 ± 0.0102 |
| deepseek-chat (API) | 0.7991 ± 0.0095 | 0.7561 ± 0.0102 |
引用信息
@mastersthesis{ojastu-2025-thesis, title = {Translation of the WinoGrande Benchmark Dataset to Evaluate Commonsense Reasoning Capabilities of Large Language Models in Estonian}, author = {Marii Ojastu}, year = 2025, month = {June}, address = {Tartu, Tartumaa, Estonia}, note = {Available at https://dspace.ut.ee/items/d4d729dd-55f7-4371-a032-50558b1c4d94}, school = {University of Tartu}, type = {Masters thesis} }
搜集汇总
数据集介绍

构建方式
在跨语言常识推理评估领域,爱沙尼亚WinoGrande数据集的构建采用了专业化人工翻译与本地化适配相结合的方法。由翻译研究专家主导的翻译流程严格遵循原数据集的双名词指代消解结构,同时针对爱沙尼亚语的黏着语特性进行形态学调整。通过文化适配机制将原数据集中的地理标识、品牌名称等元素替换为符合爱沙尼亚文化背景的等效表述,并对原始英语数据集中存在的89个模糊或错误标注样本进行了语义校正。
特点
该数据集的核心特征体现在其语言特异性与文化适配性双重维度。作为首个针对芬兰-乌戈尔语系中资源语言构建的常识推理基准,其1,767个测试样本均保持与原始数据集相同的70%词汇重叠度要求。特别值得注意的是,通过专业翻译过程中的语义校准,成功解决了爱沙尼亚语14种格位变化带来的指代一致性挑战,使得答案选项在保持语义中立的同时满足句法合规性。数据集还提供了文化适配样本与语义可比样本的细分标注,为跨语言模型评估提供多维度分析基础。
使用方法
该数据集适用于多语言大语言模型的常识推理能力评估,建议采用少样本提示的标准化测试流程。研究者可通过加载HuggingFace平台发布的标准化数据格式,使用三个翻译后的开发集样本构建提示模板进行模型测试。评估时应分别考察模型在文化适配子集、语义校正子集和原始翻译子集上的表现差异,同时建议将机器翻译版本作为对照基准以识别翻译伪影效应。对于结果分析,需重点关注模型在语义失真样本上的表现偏差,这有助于揭示模型对语言表层特征与深层推理的依赖程度。
背景与挑战
背景概述
爱沙尼亚WinoGrande数据集由塔尔图大学研究团队于2025年发布,旨在构建爱沙尼亚语版本的常识推理基准测试。该数据集基于原始英文WinoGrande数据集进行本地化翻译与文化适配,包含1,767个测试实例,专门用于评估大型语言模型在爱沙尼亚语中的代词消歧与常识推理能力。作为芬兰-乌戈尔语系的中等资源语言,该数据集的创建填补了非英语语言模型评估的空白,为多语言人工智能系统的开发提供了重要支撑。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决爱沙尼亚语特有的形态复杂性对代词消歧任务的影响,例如14种格位变化导致的答案选项形态一致性难题;在构建过程中,翻译团队需克服文化适配的复杂性,包括地理名称与生活习惯的本土化转换,同时需修正原始数据集中存在的语义模糊与错误标注问题,最终通过人工翻译与多轮标注验证确保了数据质量。
常用场景
经典使用场景
在跨语言常识推理评估领域,Estonian WinoGrande数据集作为英语WinoGrande基准的爱沙尼亚语本地化版本,被广泛用于测试大型语言模型在非英语环境下的代词消歧能力。该数据集通过人工翻译和文化适配,确保了语言结构的准确性和文化相关性,为研究者提供了评估模型在多语言场景中常识推理表现的可靠工具。其典型应用包括对比分析模型在原始英语数据与翻译版本上的性能差异,揭示语言特性对推理任务的影响。
实际应用
在实际应用中,该数据集为爱沙尼亚语自然语言处理技术的发展提供了核心评估基准。教育机构可借助其设计语言模型课程,科技公司则能通过该数据集优化面向爱沙尼亚用户的智能助手和翻译系统。政府部门在制定语言技术政策时,亦可依据该基准监测本土化语言模型的进展,促进数字时代下少数民族语言的保护与技术创新。
衍生相关工作
该数据集的诞生催生了系列跨语言推理研究,例如针对非洲语言的WinoGrande文化适配分析,以及法语Winograd模式的本土化实践。这些衍生工作深入探讨了语法结构差异对代词消歧的影响,并建立了机器翻译质量与模型推理性能的关联模型。相关研究还拓展至提示工程优化领域,尝试通过语言学知识改进跨语言基准的自动生成方法,形成了多语言评估技术发展的良性循环。
以上内容由遇见数据集搜集并总结生成



