emilia-subset|文本到语音数据集|自动语音识别数据集
收藏Emilia Subset 数据集概述
基本信息
- 许可证: CC BY-NC 4.0
- 任务类别:
- 文本到语音
- 自动语音识别
- 语言: 英语 (en)
- 数据集名称: Emilia Subset
访问条款
- 使用限制: 仅用于非商业研究和教育目的。
- 责任声明: 使用者需对数据集的使用负全责,并同意保护数据集作者免受任何因使用数据集而产生的索赔。
- 访问终止: 数据集作者保留随时终止使用者访问数据集的权利。
- 授权代表: 如果使用者受雇于商业实体,其雇主也需遵守这些条款。
数据集结构
- 特征:
__key__
: 字符串__url__
: 字符串mp3
: 音频dnsmos
: 浮点数 (float64)duration
: 浮点数 (float64)id
: 字符串language
: 字符串speaker
: 字符串text
: 字符串wav
: 字符串
- 分割:
en
: 包含 3,387,817 个样本,总大小为 246,295,697,084 字节。
- 下载大小: 245,261,998,300 字节
- 数据集大小: 246,295,697,084 字节
配置
- 配置名称: default
- 数据文件:
en
分割:data/en-*

CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
HotpotQA
HotpotQA 是收集在英语维基百科上的问答数据集,包含大约 113K 众包问题,这些问题的构建需要两篇维基百科文章的介绍段落才能回答。数据集中的每个问题都带有两个黄金段落,以及这些段落中的句子列表,众包工作人员认为这些句子是回答问题所必需的支持事实。 HotpotQA 提供了多种推理策略,包括涉及问题中缺失实体的问题、交叉问题(什么满足属性 A 和属性 B?)和比较问题,其中两个实体通过一个共同属性进行比较等。在少文档干扰设置中,QA 模型有 10 个段落,保证能找到黄金段落;在开放域全维基设置中,模型只给出问题和整个维基百科。模型根据其答案准确性和可解释性进行评估,其中前者被测量为具有完全匹配 (EM) 和 unigram F1 的预测答案和黄金答案之间的重叠,后者关注预测的支持事实句子与人类注释的匹配程度(Supporting Fact EM/F1)。该数据集还报告了一个联合指标,它鼓励系统同时在两项任务上表现良好。 来源:通过迭代查询生成回答复杂的开放域问题
OpenDataLab 收录
EV充电数据合成集
该数据集由我们的模型生成,旨在用于训练,包含约160万次充电事件,涉及3777辆电池电动车,时间跨度为365天。
github 收录
全国 1∶200 000 数字地质图(公开版)空间数据库
As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.
DataCite Commons 收录
中医舌脉诊标注数据
采用满足国家医疗器械标准的设备采集舌体图像数据、脉象波形数据。由医生对数据进行标注和分析,获取舌体特征信息、脉型判断,进而生成规范化的中医舌脉数据与特征的结构化报告,涉及以下步骤和算法规则:1、数据预处理,由医生对原始采集到的舌图像、脉诊数据进行清洗,按照纳排标准去掉不符合标准的数据,例如图片不清晰、伸舌动作不标准、脉象数据不稳定等数据需要删除。2、基于神经网络模型的特征提取:利用多标签分类网络处理舌图数据与脉象数据,获取初步的舌图健康特征与脉型信息,例如:红舌、裂纹舌、点刺舌、滑脉、涩脉等信息。3、健康特征校验:由三名取得中医执业医师资格证的医生对数据进行校准,校准规则为三名医师至少有两名对分析特征认可后,数据才可纳入数据集。4、生成结构化的数据报告:按照json的文件格式,将数据内容、数据标签存储起来,其中舌图图像数据以jpg格式文件的形式存储。文件内不涉及任何人员信息。5、质量控制:对生成的结构化报告进行质量控制,确保信息的准确性和完整性。8、持续优化和扩充数据集:根据数据集的应用反馈,持续改进数据集的数据量,单例数据包含舌脉特征数量,舌脉特征分析的准确度等信息。
天津市数据知识产权登记平台 收录