toto

Hugging Face2026-02-06 更新2026-02-07 收录

下载链接：

https://huggingface.co/datasets/speed-tb/toto

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是“Pilot Toto Transcription Translation General Multi Script”项目的一部分，包含多脚本转录和生命周期及农业叙述数据。数据集由Rimi Toto ManashiM、SpeeD-TB、Anindita、Ishita Chowdhury和Adrita Bhattacharya等人贡献。数据按训练集、测试集和验证集划分，每行数据包含音频文件路径、音频ID、原始文件名、不同脚本的文本转录、说话者ID、边界ID、时间段起始和结束时间，以及TextGrid数据的JSON格式。此外，数据集还包括上传时提供的其他元数据字段。数据集采用CC-BY-NC-SA-4.0许可，允许非商业用途下的分发、混编、改编等，但需注明创作者并遵循相同许可条款。商业用途需联系版权方。

创建时间：

2026-02-04

原始信息汇总

Pilot Toto Transcription Translation General Multi Script + Pilot Toto Narration Lifecycle Agri 数据集概述

数据集基本信息

数据集名称: Pilot Toto Transcription Translation General Multi Script + Pilot Toto Narration Lifecycle Agri
主页: https://lifeapp.unreal-tece.co.in/projects/D_Pilot_Toto_Transcription_Translation_General_Multi_Script
许可协议: CC-By-NC-SA-4.0
任务类别: 自动语音识别
语言: txo
标签: asr, audio, life app, txo, speech, automatic-speech-recognition

数据集描述

这是一个包含多脚本转录的数据项目。具体包含两个部分：

Pilot Toto Narration Lifecycle Agri: 关于生命周期和农业的转录数据。
Pilot Toto Transcription Translation General Multi Script: 包含多脚本转录的数据项目。

数据组织与结构

数据集按以下划分进行组织：训练集、测试集、验证集。每条数据记录包含以下字段：

audio: 音频文件路径
audio_id: 音频的唯一标识符
filename: 原始文件名
sentence-<SCRIPT>-transcription: 给定脚本的音频文本转录
speaker_id: 说话者标识符
boundaryID: 边界标识符
start_time: 片段的开始时间（秒）
end_time: 片段的结束时间（秒）
textgrid_json: 转换为JSON格式的TextGrid数据此外，可能包含上传时提供的其他元数据字段。

贡献者信息

项目贡献者: Rimi Toto ManashiM, SpeeD-TB, Anindita, Ishita Chowdhury, Adrita Bhattacharya
说话者: Rimi Toto, Saranjit Toto, Shanti Toto, Sushma Toto
标注者: Adrita Bhattacharya, Aniket Srivastava, Anindita, Arjunnaikguguloth, Ishita Chowdhury, ManashiM, SpeeD-TB

许可与使用条款

本作品采用 CC-By-NC-SA-4.0 许可协议。
该协议允许使用者出于非商业目的，在任何媒介或格式中分发、混音、改编、基于原作品构建以及将材料纳入软件系统，但必须注明创作者。
如果您进行混音、改编、基于原作品构建或将其纳入软件系统，则必须根据相同条款对修改后的材料（包括软件系统生成的材料）进行许可，并根据 GNU 通用公共许可证对软件系统进行许可。
商业用途: 如果您有兴趣将此数据集用于商业目的，请联系 contact@unreal-tece.co.in。商业许可产生的利润将作为版税分发给为此数据集做出贡献的社区成员。

联系方式

如有问题、疑问或希望做出贡献，请在数据集仓库提交问题或直接联系 contact@unreal-tece.co.in。

搜集汇总

数据集介绍

构建方式

在濒危语言保护与数字人文的交叉领域，Toto数据集通过系统性的田野录音与多脚本转录流程构建而成。数据采集聚焦于Toto语使用者的日常生活与农业活动叙述，由多位母语者参与录制。音频素材随后被切分为带有时序标记的片段，并由专业标注团队进行多脚本文字转写，最终形成结构化的训练、验证与测试分割，为低资源语言的自动语音识别研究提供了珍贵素材。

特点

该数据集的核心特征在于其多脚本转录体系与丰富的语境覆盖。它不仅提供了Toto语语音的原始音频，还包含了多种文字脚本下的对应转写文本，这为研究书写系统与语音表征的关系提供了独特视角。数据内容紧密围绕生命周期与农业主题，确保了语料的现实性与文化特异性。此外，数据集附带了精细的语音分段边界、说话人标识以及TextGrid语音标注的JSON格式数据，为多层次的语言分析奠定了坚实基础。

使用方法

研究者可利用该数据集主要服务于低资源语言的自动语音识别模型开发与评估。典型工作流程始于通过HuggingFace Datasets库加载数据，依据标准划分获取训练、验证及测试集。模型训练可基于`audio`特征与对应的`sentence-<SCRIPT>-transcription`字段进行监督学习。其精细的`start_time`、`end_time`及`textgrid_json`信息支持语音分割、对齐等深入研究。鉴于其CC-BY-NC-SA-4.0许可，非商业用途的研究者可直接使用，商业应用则需联系项目方获取授权。

背景与挑战

背景概述

在自动语音识别领域，低资源语言的语音数据处理一直是一个重要研究方向。Toto数据集由Rimi Toto ManashiM、SpeeD-TB、Anindita、Ishita Chowdhury、Adrita Bhattacharya等研究人员与机构合作构建，专注于记录和转录Toto语的语音数据。该数据集的核心研究问题在于解决低资源语言在语音识别任务中数据稀缺的困境，通过采集生活应用、生命周期及农业相关领域的多脚本转录内容，为语言技术研究提供了宝贵的语音语料资源。其创建旨在推动语言多样性保护及语音技术普惠发展，对低资源语言处理领域具有显著的学术与应用价值。

当前挑战

Toto数据集所针对的领域挑战在于低资源语言的自动语音识别任务，这类语言通常缺乏大规模标注数据，导致模型训练困难、识别精度受限。构建过程中的挑战包括多脚本转录的复杂性，需协调不同书写系统的文本对齐与一致性；同时，数据采集涉及特定领域如农业与生命周期的专业术语，要求标注者具备相应的语言与文化知识；此外，确保语音数据的质量与代表性，以及在社区参与中维护数据伦理与版权分配，均是数据集构建中需克服的关键难题。

常用场景

经典使用场景

在低资源语言自动语音识别领域，Toto数据集以其多脚本转录特性，为研究跨语言语音处理提供了关键资源。该数据集收录了Toto语的生活应用和农业叙事音频，涵盖训练、验证和测试分割，支持模型在真实场景下的性能评估。研究者常利用其精细的时间标注和说话人信息，探索语音识别系统在多样发音和语境中的鲁棒性，推动语言技术向边缘化社群延伸。

衍生相关工作

围绕Toto数据集，已衍生出针对低资源语音识别的迁移学习框架、多脚本转录对齐算法，以及基于文本网格的语音分段研究。这些工作常引用数据集的结构化标注，探索端到端语音处理模型在跨文化语境中的泛化能力，进一步推动了少数民族语言技术生态的构建与优化。

数据集最近研究