flexthink/ljspeech|语音识别数据集|数据集数据集
收藏The LJ Speech Dataset 概述
数据集基本信息
- 版本:1.0
- 发布日期:2017年7月5日
- 来源:https://keithito.com/LJ-Speech-Dataset
数据集内容
- 音频片段数量:13,100
- 音频来源:单个演讲者阅读的7本非小说书籍
- 音频长度:每个片段1至10秒,总时长约24小时
- 文本来源:1884至1964年间出版的公共领域书籍
- 音频录制:2016-2017年,由LibriVox项目录制
文件格式与结构
- 音频格式:单声道16位PCM WAV,采样率22050 Hz
- 文本文件:每个音频文件对应一个转录文本
- JSON文件结构: json { "<sample-id>": { "char_raw": "<label text (raw)>", "char": "<label text (preprocessed)", "phn": "<experimental phoneme annotation>", "wav": "<relative path to the file>" } }
数据集统计
- 总字数:225,715
- 总字符数:1,308,674
- 总时长:23小时55分17秒
- 平均片段时长:6.57秒
- 最小片段时长:1.11秒
- 最大片段时长:10.10秒
- 平均每片段字数:17.23
- 不同单词数量:13,821
其他信息
- 音频片段分割:基于录音中的静音自动分割,边界通常与句或子句边界对齐
- 文本与音频匹配:手动匹配,并进行质量保证检查
- 原始录音格式:128 kbps MP3,可能包含MP3编码引入的伪影
- 文本中的缩写:如Mr., Mrs., Dr.等,部分有标准扩展形式
许可与使用
- 版权状态:公共领域,无使用限制
- 引用信息:可引用https://keithito.com/LJ-Speech-Dataset或使用提供的引用格式
数据集更新
- 1.1版:移除了30个无对应注释的.wav文件(2018年2月19日)

GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
PlantVillage
在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。
OpenDataLab 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录