gaelic-bench

Hugging Face2026-01-26 更新2026-01-27 收录

下载链接：

https://huggingface.co/datasets/ptrdvn/gaelic-bench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，主要涉及播客理解问题和播客文化问题，提供英语（en）和另一种语言（gd）的版本。每个配置包含以下特征：page_id（页面ID）、标题（gd_title/en_title）、文本内容（gd_text/en_text）、问题（question）、正确答案（correct_ans）以及多个选择题答案（answer_A/B/C/D）。此外，播客配置还包含音频（gd_audio）特征。数据集分为测试集，每个配置的样本数量和大小如下： - en-podcast-comprehension-questions：908个样本，2,189,400字节 - en-podcast-cultural-questions：1,087个样本，211,883字节 - gd-podcast-comprehension-questions：908个样本，2,224,903字节 - gd-podcast-cultural-questions：1,087个样本，236,048字节 - podcasts：908个样本，4,169,324,713字节。该数据集适用于自然语言处理任务，如问答系统、语言理解和多模态学习。

创建时间：

2026-01-23

原始信息汇总

数据集概述

基本信息

数据集名称: gaelic-bench
托管地址: https://huggingface.co/datasets/ptrdvn/gaelic-bench

数据集配置与结构

该数据集包含5个独立的配置（config），每个配置对应一个特定的数据子集。

1. 配置: en-podcast-comprehension-questions

描述: 英文播客理解问题
特征:
- page_id (string)
- gd_title (string)
- gd_text (string)
- question (string)
- correct_ans (string)
- answer_A (string)
- answer_B (string)
- answer_C (string)
- answer_D (string)
数据分割:
- 分割名称: test
- 样本数量: 908
- 字节数: 2,189,400
大小信息:
- 下载大小: 1,235,288 字节
- 数据集大小: 2,189,400 字节

2. 配置: en-podcast-cultural-questions

描述: 英文播客文化问题
特征:
- page_id (string)
- question (string)
- correct_ans (string)
- answer_A (string)
- answer_B (string)
- answer_C (string)
- answer_D (string)
数据分割:
- 分割名称: test
- 样本数量: 1087
- 字节数: 211,883
大小信息:
- 下载大小: 144,434 字节
- 数据集大小: 211,883 字节

3. 配置: gd-podcast-comprehension-questions

描述: 盖尔语播客理解问题
特征:
- page_id (string)
- gd_title (string)
- gd_text (string)
- question (string)
- correct_ans (string)
- answer_A (string)
- answer_B (string)
- answer_C (string)
- answer_D (string)
数据分割:
- 分割名称: test
- 样本数量: 908
- 字节数: 2,224,903
大小信息:
- 下载大小: 1,252,846 字节
- 数据集大小: 2,224,903 字节

4. 配置: gd-podcast-cultural-questions

描述: 盖尔语播客文化问题
特征:
- page_id (string)
- question (string)
- correct_ans (string)
- answer_A (string)
- answer_B (string)
- answer_C (string)
- answer_D (string)
数据分割:
- 分割名称: test
- 样本数量: 1087
- 字节数: 236,048
大小信息:
- 下载大小: 154,444 字节
- 数据集大小: 236,048 字节

5. 配置: podcasts

描述: 播客内容
特征:
- page_id (string)
- subject_type (string)
- en_title (string)
- gd_title (string)
- en_text (string)
- gd_text (string)
- gd_audio (audio)
数据分割:
- 分割名称: test
- 样本数量: 908
- 字节数: 4,169,324,713.0
大小信息:
- 下载大小: 3,514,524,768 字节
- 数据集大小: 4,169,324,713.0 字节

数据文件路径

en-podcast-comprehension-questions: en-podcast-comprehension-questions/test-*
en-podcast-cultural-questions: en-podcast-cultural-questions/test-*
gd-podcast-comprehension-questions: gd-podcast-comprehension-questions/test-*
gd-podcast-cultural-questions: gd-podcast-cultural-questions/test-*
podcasts: podcasts/test-*

搜集汇总

数据集介绍

构建方式

在低资源语言技术评估领域，Gaelic-Bench数据集通过精心设计的流程构建而成。该数据集以盖尔语播客内容为核心素材，涵盖了908个播客片段及其对应的理解与文化问题。构建过程中，团队首先收集了盖尔语播客的音频与文本资料，随后由语言专家进行双语对齐，生成英语对照文本。基于这些双语内容，专业人员设计了两种类型的问题：理解性问题直接考察对播客内容细节的把握，文化性问题则深入探究盖尔语社群特有的文化背景知识。每个问题均配备四个选项，并标注唯一正确答案，形成了结构严谨的评估框架。

使用方法

研究人员可通过HuggingFace平台直接加载该数据集，其模块化设计支持灵活选用不同配置。数据集提供五个独立配置模块：盖尔语播客原始材料、盖尔语理解问题、盖尔语文化问题及其对应的英语版本。使用者可根据研究目标选择单一语言或双语对比实验方案。在具体应用中，该数据集特别适用于评估语言模型在低资源语言场景下的理解能力、跨语言迁移效果以及文化背景知识掌握程度。通过模型在理解性问题与文化性问题上的表现差异分析，研究者能够深入探究模型在不同认知维度上的能力边界，为盖尔语自然语言处理技术的发展提供精准的评估基准。

背景与挑战

背景概述

盖尔语基准（Gaelic-Bench）数据集由苏格兰盖尔语语言技术研究社群于近年构建，旨在推动低资源语言的自然语言处理进展。该数据集聚焦于苏格兰盖尔语（gd）与英语（en）的双语理解与评估，通过播客文本、音频及配套的多项选择题，系统考察机器对盖尔语内容的理解能力与文化知识掌握程度。其核心研究问题在于如何有效评估和提升针对盖尔语这类低资源语言的机器阅读理解与跨语言迁移性能，为语言技术在该语种的公平发展提供关键数据支撑，对濒危语言数字保存与多语言人工智能研究具有显著影响力。

当前挑战

盖尔语基准数据集旨在解决低资源语言机器阅读理解与文化知识问答的评估挑战，其核心难题在于盖尔语标注数据稀缺，导致模型难以捕捉语言细微差异与文化语境。构建过程中，研究人员面临双重困难：一是高质量双语播客内容的收集与对齐需耗费大量人力，确保文本与音频的精确匹配；二是设计兼具语言理解与文化深度的多项选择题，要求领域专家深入参与，以保障问题的语言学准确性与文化代表性，避免引入偏见或错误。

常用场景

经典使用场景

在低资源语言处理领域，盖尔语作为凯尔特语系的重要分支，其数字化资源相对匮乏。Gaelic-Bench数据集通过提供盖尔语与英语的双语播客文本、音频及配套理解与文化问题，为机器翻译、跨语言信息检索和语言模型评估构建了标准测试平台。该数据集典型应用于训练和验证多语言自然语言处理模型，特别是在处理盖尔语这类资源稀缺语言时，能够系统评估模型在阅读理解、文化知识推理等方面的性能，为语言技术研究提供了关键数据支撑。

解决学术问题

该数据集有效应对了低资源语言研究中数据不足的核心挑战，为学术界提供了盖尔语机器翻译质量评估、跨语言语义理解能力测试的基准工具。它解决了传统方法在盖尔语处理中因缺乏高质量平行语料而难以进行定量分析的困境，使得研究者能够精确衡量模型在文化敏感语境下的表现，推动了低资源语言处理技术的标准化与可比性研究，对保护语言多样性和促进数字包容具有深远意义。

实际应用

在实际应用层面，Gaelic-Bench数据集被广泛应用于开发面向盖尔语地区的教育技术工具，如自适应语言学习系统和自动问答平台。它支持构建能够理解盖尔语播客内容的智能助手，助力文化遗产的数字化保存与传播。此外，该数据集为政府机构和非营利组织在制定语言振兴政策时提供了数据驱动的决策依据，促进了盖尔语在媒体、教育和公共服务领域的实际应用与推广。

数据集最近研究