dartmouth/polygloss-corpus-bribri

Name: dartmouth/polygloss-corpus-bribri
Creator: dartmouth
Published: 2026-05-08 02:32:55
License: 暂无描述

Hugging Face2026-05-08 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/dartmouth/polygloss-corpus-bribri

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: id dtype: string - name: source dtype: string - name: transcription dtype: string - name: segmentation dtype: string - name: glosses dtype: string - name: translation dtype: string - name: glottocode dtype: string - name: language dtype: string - name: metalang_glottocode dtype: string - name: metalanguage dtype: string splits: - name: train num_bytes: 92113798 num_examples: 341620 - name: test num_bytes: 2048904 num_examples: 7030 - name: dev num_bytes: 1847868 num_examples: 6305 download_size: 40811602 dataset_size: 96010570 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* - split: dev path: data/dev-* ---

提供机构：

dartmouth

搜集汇总

数据集介绍

构建方式

polygloss-corpus-bribri 数据集的构建基于对布里布里语（Bribri）这一濒危语言的系统性整理与标注。该数据集收录了涵盖多领域语料的文本，每条数据包含唯一标识符、来源、音系转录、形态切分、词素标注、翻译译语、语言代码和元语言信息。数据划分为训练集（341,620条）、测试集（7,030条）和验证集（6,305条），为自然语言处理任务提供结构化支持。通过精确的字段配置，数据集实现了从原始语音到多层次语言学注释的桥梁，尤其注重形态复杂性的保留。

特点

该数据集的核心特点在于其精细的多层语言学注释结构，包括音系转录、形态切分和词素标注，为深入研究布里布里语的语法和音韵学提供了高分辨率数据。同时，数据集统一使用Glottocode标识语言，支持跨语言对比分析。规模上，近35万条训练样本覆盖了丰富的语用场景，并严格按比例划分以评估模型泛化能力。此外，元语言字段的引入允许用户针对翻译目标语言进行定制化应用，增强了数据集在低资源语言研究中的实用性。

使用方法

数据集可通过HuggingFace Datasets库直接加载，使用默认配置自动下载训练、测试和验证分片。用户可选择加载全部字段或按需提取特定标注层级（如仅使用转录和翻译）进行下游任务。推荐用于序列到序列建模，尤其适合形态丰富的语言翻译、语素分割和语法标注任务。加载后数据以字典格式呈现，列名与README定义一致，便于与PyTorch或TensorFlow流水线集成。开发者需注意预处理多层级标注的一致性，以匹配模型输入要求。

背景与挑战

背景概述

濒危语言的数字化保存与自然语言处理研究正逐渐成为计算语言学的前沿领域，其中布里布里语（Bribri）作为哥斯达黎加和巴拿马边境地区查罗特加-布鲁斯卡土著群体使用的语言，面临着严峻的消亡威胁。为应对这一挑战，由多机构合作的polygloss-corpus-bribri数据集于近年创建，旨在为这一低资源语言提供结构化的平行语料资源。该数据集包含约34万条训练样本及配套的测试与开发集，每条数据涵盖了转录、分词、注释、翻译及元语言信息，核心研究问题聚焦于支持机器翻译、词法分析和语言文档等任务。其在濒危语言计算研究领域具有开创性意义，为后续布里布里语的数字化复兴与跨学科合作奠定了数据基础。

当前挑战

该数据集的核心挑战在于解决低资源濒危语言自然语言处理中的领域问题，尤其是语言模型训练数据极度匮乏、缺乏标准化的正字法和语法标注体系。布里布里语作为一种孤立语，其复杂的形态句法结构使得自动分割与注释面临显著困难。在构建过程中，数据采集依赖于有限的母语者参与和田野调查，导致数据规模与质量受制于实地条件。此外，平行语料的翻译一致性、注释专家的稀缺性以及跨语言元数据对齐的复杂性，均对数据集的鲁棒性和通用性构成严峻考验。

常用场景

经典使用场景

聚格洛特-布里布里语料库（Polygloss Corpus Bribri）是一个专为布里布里语这一濒危的奇布查语系语言设计的平行语料数据集。其经典使用场景在于构建跨语言自然语言处理系统，特别是面向低资源语言的机器翻译和语音识别模型。数据集中包含的带注解转写（transcription）、分词（segmentation）、注释（glosses）以及翻译（translation）信息，为研究人员提供了结构化的对齐资源，使得从零训练神经机器翻译模型成为可能，有效缓解了语料匮乏的窘境。

衍生相关工作

围绕该数据集已衍生出一系列经典研究工作，包括但不限于面向极度低资源场景的跨语言词嵌入对齐方法、基于元学习的快速适应翻译模型，以及融合形态学特征的神经机器翻译架构。部分研究利用其丰富的注释信息，提出了新的字符级与子词级分割策略，以提升布里布里语这类粘着型语言的编码效率。此外，该语料库还常被用作多语言预训练模型（如XLM-R）微调评估的基准，检验其在真正低资源濒危语言上的跨语言泛化能力，为更广泛的语料库建设和模型设计提供了坚实参照。

数据集最近研究