five

openpecha/tibetan_asr_data|语音识别数据集|藏语数据集

收藏
hugging_face2024-05-24 更新2024-05-25 收录
语音识别
藏语
下载链接:
https://hf-mirror.com/datasets/openpecha/tibetan_asr_data
下载链接
链接失效反馈
资源简介:
该数据集包含931,778对藏语语音和文本数据,总时长为1006.15小时。数据来源于多个部门,包括音频书籍、儿童语音、历史、藏语电影、自然语音、新闻、播客和藏语教学等。所有转录文本都经过了至少一个人的审核。数据采集日期为2024年5月24日。数据集中还包含一个质量等级列,用于指示转录的质量,等级1表示仅转录,等级2表示由团队领导审核,等级3表示由质量控制团队审核。

该数据集包含931,778对藏语语音和文本数据,总时长为1006.15小时。数据来源于多个部门,包括音频书籍、儿童语音、历史、藏语电影、自然语音、新闻、播客和藏语教学等。所有转录文本都经过了至少一个人的审核。数据采集日期为2024年5月24日。数据集中还包含一个质量等级列,用于指示转录的质量,等级1表示仅转录,等级2表示由团队领导审核,等级3表示由质量控制团队审核。
提供机构:
openpecha
原始信息汇总

数据集概述

  • 数据量:包含931,778对语音转文本数据,总计1006.15小时。
  • 数据审核:所有转录文本均经过至少一人审核,除了原始转录者。
  • 数据采集日期:2024年5月24日。

数据分类

类别 描述 时长(小时)
STT_AB 有声书 145.65
STT_CS 儿童语音 123.58
STT_HS 历史 2.35
STT_MV 藏语电影 162.84
STT_NS 自然语音 203.44
STT_NW 新闻 34.79
STT_PC 播客 33.26
STT_TT 藏语教学 300.25

转录质量等级

等级 含义
1 仅转录
2 团队领导审核
3 质量控制团队审核
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

SuMeyYao/ysmpubmedclt

该数据集的许可证为apache-2.0,主要用于表格问答任务,数据集语言为英语,大小介于1亿到10亿之间。

hugging_face 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录