Libriheavy|自动语音识别数据集|语音数据数据集
收藏数据集概述
名称: Libriheavy
描述: Libriheavy 是一个包含50,000小时的自动语音识别(ASR)语料库,具有标点和大小写信息,以及上下文信息。它是 Librilight 数据集的标注版本。
下载方式:
- 音频文件: 与 Librilight 相同,可通过命令
bash run.sh --stage -1 --stop-stage -1
下载。 - 清单文件: 托管在 huggingface 和 modelscope,可通过命令
bash run.sh --stage 1 --stop-stage 1
或bash run.sh --stage 0 --stop-stage 0
下载。
数据结构:
- 每个清单文件包含音频的详细信息,包括开始时间、持续时间、通道、监督信息等。
- 监督信息包括文本和预处理文本,分别来自原始书籍的转录和ASR模型的解码结果。
数据格式:
- 提供两种格式的数据:带有标点和大小写的格式(cases_and_punc)和仅大写无标点的格式(upper_no_punc)。
- 每种格式都包含Kaldi和Lhotse两种处理方式的文件。
使用指南:
- 对于纯ASR训练,可通过命令
bash run.sh --stage 2 --stop-stage 2
提取清单。 - 使用
pre_texts
的指南在论文 PromptASR for contextualized ASR with controllable style 中有详细说明。
统计信息:
- 数据集的详细统计信息可在 Librilight 论文中找到,包括不同子集的时长、书籍数量、发言人时长等。
引用:
@misc{kang2023libriheavy, title={Libriheavy: a 50,000 hours ASR corpus with punctuation casing and context}, author={Wei Kang and Xiaoyu Yang and Zengwei Yao and Fangjun Kuang and Yifan Yang and Liyong Guo and Long Lin and Daniel Povey}, year={2023}, eprint={2309.08105}, archivePrefix={arXiv}, primaryClass={eess.AS} }

MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录