Nexdata/Spanish_Speaking_English_Speech_Data_by_Mobile_Phone
收藏Hugging Face2024-04-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/Spanish_Speaking_English_Speech_Data_by_Mobile_Phone
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由891名西班牙母语者参与录制,录制脚本由语言学家设计,涵盖了通用、互动、车载和家庭等多个主题。文本经过人工校对,准确率高,适用于主流Android和Apple系统手机。该数据集可用于自动语音识别和机器翻译场景。
---
YAML 标签:
- 复制粘贴通过标签工具获取的标签:https://github.com/huggingface/datasets-tagging
---
# 数据集卡片:Nexdata/手机采集西班牙语母语者英语语音数据集
## 目录
- [目录](#table-of-contents)
- [数据集描述](#dataset-description)
- [数据集概览](#dataset-summary)
- [支持任务与评测榜单](#supported-tasks-and-leaderboards)
- [语言](#languages)
- [数据集结构](#dataset-structure)
- [数据实例](#data-instances)
- [数据字段](#data-fields)
- [数据划分](#data-splits)
- [数据集构建](#dataset-creation)
- [构建初衷](#curation-rationale)
- [源数据](#source-data)
- [标注](#annotations)
- [个人与敏感信息](#personal-and-sensitive-information)
- [数据集使用注意事项](#considerations-for-using-the-data)
- [数据集的社会影响](#social-impact-of-dataset)
- [偏差分析](#discussion-of-biases)
- [其他已知局限](#other-known-limitations)
- [附加信息](#additional-information)
- [数据集维护者](#dataset-curators)
- [授权信息](#licensing-information)
- [引用信息](#citation-information)
- [贡献](#contributions)
## 数据集描述
- **主页**:https://www.nexdata.ai/datasets/990?source=Huggingface
- **代码仓库**:
- **相关论文**:
- **评测榜单**:
- **联系方式**:
### 数据集概览
891名纯正口音的西班牙语母语者参与了本次语音录制。录制脚本由语言学家设计,涵盖通用对话、交互场景、车载场景与居家场景等广泛主题。配套文本均经过人工校对,准确率优异。本数据集适配主流安卓与苹果系统手机,可应用于自动语音识别(Automatic Speech Recognition, ASR)以及机器翻译等场景。
更多详情请访问链接:https://www.nexdata.ai/datasets/990?source=Huggingface
### 支持任务与评测榜单
自动语音识别、音频说话人识别:本数据集可用于训练自动语音识别(Automatic Speech Recognition, ASR)模型。
### 语言
西班牙语、英语
## 数据集结构
### 数据实例
[More Information Needed]
### 数据字段
[More Information Needed]
### 数据划分
[More Information Needed]
## 数据集构建
### 构建初衷
[More Information Needed]
### 源数据
#### 初始数据采集与归一化
[More Information Needed]
#### 源语言产出者身份
[More Information Needed]
### 标注
#### 标注流程
[More Information Needed]
#### 标注者身份
[More Information Needed]
### 个人与敏感信息
[More Information Needed]
## 数据集使用注意事项
### 数据集的社会影响
[More Information Needed]
### 偏差分析
[More Information Needed]
### 其他已知局限
[More Information Needed]
## 附加信息
### 数据集维护者
[More Information Needed]
### 授权信息
商业授权:https://drive.google.com/file/d/1saDCPm74D4UWfBL17VbkTsZLGfpOQj1J/view?usp=sharing
### 引用信息
[More Information Needed]
### 贡献
提供机构:
Nexdata
原始信息汇总
数据集概述
数据集描述
数据集总结
- 该数据集由891名西班牙语母语者参与录制,带有真实口音。
- 录制脚本由语言学家设计,涵盖广泛主题,包括通用、互动、车载和家居。
- 文本经过人工校对,准确性高。
- 适用于主流Android和Apple系统手机。
- 可应用于自动语音识别和机器翻译场景。
支持的任务和排行榜
- 自动语音识别(ASR)
- 音频说话人识别
语言
- 西班牙语
- 英语
数据集结构
数据实例
- [信息待补充]
数据字段
- [信息待补充]
数据分割
- [信息待补充]
数据集创建
来源数据
- [信息待补充]
注释
- [信息待补充]
个人和敏感信息
- [信息待补充]
使用数据的考虑
数据集的社会影响
- [信息待补充]
偏见讨论
- [信息待补充]
其他已知限制
- [信息待补充]
附加信息
数据集管理者
- [信息待补充]
许可信息
- 商业许可:链接



