five

Lacito/pangloss

收藏
Hugging Face2024-07-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Lacito/pangloss
下载链接
链接失效反馈
官方服务:
资源简介:
Pangloss数据集包含两个中国少数民族语言(Japhug和Na)的音频语料库,并附有转录文本。该数据集的目的是为自然语言处理实验提供参考数据集。数据是在沉浸式田野调查中收集和转录的,总时长约为1900分钟的Japhug和200分钟的Na。数据集支持多种语言,包括Japhug和Yongning Na,并且部分文档有法语、英语和中文的翻译。数据集的结构包括音频文件路径、音频数据、句子、文档类型以及翻译信息。数据集分为训练集、测试集和验证集,比例为8:1:1。

The Pangloss dataset contains two audio corpora of minority languages of China (Japhug and Na), with transcriptions. The purpose of the dataset is to provide reference data sets for experiments in Natural Language Processing. The data, collected and transcribed in the course of immersion fieldwork, amount to a total of about 1,900 minutes in Japhug and 200 minutes in Na. The dataset supports multiple languages, including Japhug and Yongning Na, and some documents have translations into French, English, and Chinese. The dataset structure includes the path to the audio file, audio data, sentence, document type, and translation information. The dataset is divided into train, test, and validation sets with a ratio of 8:1:1.
提供机构:
Lacito
原始信息汇总

数据集概述

数据集名称

  • 名称: Pangloss

数据集摘要

  • 摘要: 包含两个中国少数民族语言(Japhug 和 Na)的音频语料库,带有转录,用于自然语言处理实验的参考数据集。数据总量约为Japhug语言1,900分钟和Na语言200分钟。

支持的任务

  • 任务: 自动语音识别
  • 任务ID: speech-recognition

语言

  • 语言: Japhug (ISO 639-3: jya, Glottolog: japh1234) 和 Yongning Na (ISO 639-3: nru, Glottolog: yong1288)
  • 语言BCP47: x-japh1234, x-yong1288
  • 语言详情: jya由japh1234组成,nru由yong1288组成

多语言性

  • 类型: 多语言, 翻译

许可证

  • 许可证: cc-by-nc-sa-4.0

数据集大小

  • 大小: 10K<n<100K

数据集来源

  • 来源: 原始数据

数据集结构

数据实例

  • 结构: 每个数据实例包括路径、音频、句子、文档类型和多种语言的翻译。

数据字段

  • 字段:
    • path: 音频文件路径
    • audio: 包含音频文件路径、音频数组和采样率的字典
    • sentence: 原生发音的句子
    • doctype: 文档类型(文本或词汇表)
    • translation:XX: 句子在语言XX中的翻译

数据分割

  • 分割: 训练、测试和验证集,随机分割(比例8:1:1),按句子级别分割。

数据集创建

数据收集

  • 收集方式: 沉浸式田野调查
  • 数据贡献者: 专家生成

注释

  • 注释生成: 专家生成

使用数据的考虑

社会影响

  • 影响: 促进语言文档和研究,支持科学和公众对世界语言的理解。

偏见讨论

  • 偏见: 单一口音,不代表语言的社会和方言多样性。

其他已知限制

  • 限制: 翻译由专家手工完成,不同文档的翻译量和类型不同。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Lacito/pangloss数据集包含Japhug和Na两种中国少数民族语言的音频语料及转录文本,部分文档提供多语言翻译,旨在支持自然语言处理研究。数据集特点包括单说话者录音、手工翻译和随机分割的训练/测试/验证集。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作