生僻字数据集
收藏魔搭社区2026-01-06 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/shiwei/rare_word
下载链接
链接失效反馈官方服务:
资源简介:
# 生僻字数据集测试集
## 数据集描述
生僻字数据集测试集
### 数据集简介
生僻字数据集测试集
### 数据集支持的任务
支持“Aishell-1学术数据集的中文语音识别模型”模型的训练和测试任务
## 数据集的格式和结构
### 数据格式
16K采样率,单通道音频。
### 数据集加载方式
无
### 数据分片
训练集: rare_word
验证集: rare_word
测试集: rare_word
## 数据集生成的相关信息
### 原始数据
无
### 数据集标注
无
#### 标注过程
无
#### 标注者
无
## 数据集版权信息
版权归aishell所有,支持学术研究,未经允许禁止商用。
## 引用方式
```BibTeX
@inproceedings{aishell_2017,
title={AIShell-1: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline},
author={Hui Bu, Jiayu Du, Xingyu Na, Bengu Wu, Hao Zheng},
booktitle={Oriental COCOSDA 2017},
pages={Submitted},
year={2017}
}
```
## 其他相关信息
详见https://www.openslr.org/33/
# Rare Character Dataset Test Set
## Dataset Description
Rare Character Dataset Test Set
### Dataset Overview
Rare Character Dataset Test Set
### Supported Tasks
Supports training and testing tasks for the Chinese speech recognition model based on the Aishell-1 academic dataset.
## Dataset Format and Structure
### Data Format
16K sampling rate, single-channel audio.
### Dataset Loading Method
None
### Data Splits
Training set: rare_word
Validation set: rare_word
Test set: rare_word
## Dataset Generation Information
### Original Data
None
### Dataset Annotations
None
#### Annotation Process
None
#### Annotators
None
## Dataset Copyright Information
Copyright belongs to aishell. For academic research purposes only, commercial use is prohibited without prior permission.
## Citation Format
BibTeX
@inproceedings{aishell_2017,
title={AIShell-1: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline},
author={Hui Bu, Jiayu Du, Xingyu Na, Bengu Wu, Hao Zheng},
booktitle={Oriental COCOSDA 2017},
pages={Submitted},
year={2017}
}
## Other Relevant Information
See https://www.openslr.org/33/ for details.
提供机构:
maas
创建时间:
2023-02-13
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于中文语音识别模型训练和测试的生僻字数据集,包含16K采样率的单通道音频数据,版权归aishell所有,仅限学术研究使用。
以上内容由遇见数据集搜集并总结生成



