marconilab/grain_approved_denoised
收藏Hugging Face2024-07-05 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/marconilab/grain_approved_denoised
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征字段,如句子、语言、贡献者ID、性别、年龄组、语音片段、持续时间、点赞数、点踩数、地区和路径等。数据集被分为训练集、评估集和测试集,分别包含5101、2000和3200个样本。数据集的下载大小为4531510669字节,总大小为4186422007.6字节。
The dataset includes multiple feature fields such as sentence, language, contributor_id, gender, age_group, voice_clip, duration, up_votes, down_votes, Region, and path. The dataset is divided into train, eval, and test sets, containing 5101, 2000, and 3200 samples respectively. The download size of the dataset is 4531510669 bytes, and the total size is 4186422007.6 bytes.
提供机构:
marconilab
原始信息汇总
数据集概述
数据集特征
- sentence: 类型为字符串,表示句子内容。
- language: 类型为字符串,表示语言。
- contributor_id: 类型为整数,表示贡献者ID。
- gender: 类型为字符串,表示性别。
- age_group: 类型为字符串,表示年龄组。
- voice_clip: 类型为字符串,表示语音片段。
- duration: 类型为浮点数,表示持续时间。
- up_votes: 类型为整数,表示点赞数。
- down_votes: 类型为整数,表示点踩数。
- Region: 类型为字符串,表示地区。
- path: 类型为音频,表示音频文件路径。
数据集划分
- train: 包含5101个样本,总大小为1944468591.6字节。
- eval: 包含2000个样本,总大小为922501585.0字节。
- test: 包含3200个样本,总大小为1319451831.0字节。
数据集大小
- 下载大小: 4531510669字节
- 数据集总大小: 4186422007.6字节
配置
- config_name: default
- data_files:
- train: 路径为
data/train-* - eval: 路径为
data/eval-* - test: 路径为
data/test-*
- train: 路径为
- data_files:



