uwupad
收藏魔搭社区2025-12-30 更新2025-07-12 收录
下载链接:
https://modelscope.cn/datasets/nyuuzyou/uwupad
下载链接
链接失效反馈官方服务:
资源简介:
# Dataset Card for UwUpad Soundboard Audio Collection
### Dataset Summary
This dataset contains 48,366 audio files from [uwupad.me](https://uwupad.me/), a service for finding and downloading sounds for soundboards such as Soundpad or mobile devices. The collection includes a diverse range of audio clips suitable for soundboard applications, covering various categories including memes, music clips, voice samples, sound effects, and entertainment audio. The dataset provides both audio files in MP3 format and metadata including titles, tags, and associated imagery.
### Languages
The dataset is multilingual:
- Russian (ru): Primary language
- English (en): Secondary language
- Other languages are present in small proportions
## Dataset Structure
### Data Fields
Each audio file in the dataset is accompanied by metadata containing the following fields:
- `id`: Unique identifier for the audio file
- `title`: Descriptive title of the audio clip
- `image_url`: URL to associated avatar/thumbnail image
- `audio_url`: Original URL where the audio file was hosted
- `tags`: Array of strings representing descriptive terms, categories, and related concepts associated with the audio
### Data Splits
The dataset contains a single split:
| Split | Number of Examples |
| :---- | ---------------: |
| `train` | 48,366 |
Total dataset size: 48,366 entries
### Data Files
- Audio files are stored in MP3 format within webdataset shards (`uwupad_00.tar` to `uwupad_60.tar`)
- Metadata is provided in compressed JSONL format (`uwupad.jsonl.zst`)
### File Organization
The dataset uses webdataset format for efficient storage and streaming:
- **Audio shards**: 61 tar files (`uwupad_00.tar` through `uwupad_60.tar`)
- **Metadata**: Single compressed JSONL file (`uwupad.jsonl.zst`)
- **Files per shard**: Approximately 800 audio files
# UwUpad 音频板音频数据集卡片
### 数据集概述
本数据集包含来自[uwupad.me](https://uwupad.me/)的48,366个音频文件。该网站是一款面向Soundpad等音频板软件或移动设备的音效素材查找与下载服务。本数据集收录了适用于音频板应用的多样化音频片段,涵盖网络梗音频、音乐片段、语音样本、音效及娱乐音频等多个类别。数据集同时提供MP3格式的音频文件,以及包含标题、标签与关联图像的元数据。
### 语言分布
本数据集支持多语言:
- 俄语(ru):主要语言
- 英语(en):次要语言
- 其余语言占比极低
## 数据集结构
### 数据字段
数据集中的每个音频文件均附带元数据,包含以下字段:
- `id`:音频文件的唯一标识符
- `title`:音频片段的描述性标题
- `image_url`:关联头像/缩略图的URL
- `audio_url`:音频文件的原始托管URL
- `tags`:用于描述该音频的描述性术语、分类及相关概念的字符串数组
### 数据拆分
数据集仅包含一个拆分:
| 拆分名称 | 样本数量 |
| :------- | --------: |
| `train` | 48,366 |
总数据集规模:48,366条数据条目
### 数据文件
- 音频文件以MP3格式存储于webdataset格式分块文件(`uwupad_00.tar`至`uwupad_60.tar`)中
- 元数据以压缩JSONL格式提供(`uwupad.jsonl.zst`)
### 文件组织方式
本数据集采用webdataset格式以实现高效存储与流式加载:
- **音频分块**:共61个tar文件(`uwupad_00.tar`至`uwupad_60.tar`)
- **元数据**:单个压缩JSONL文件(`uwupad.jsonl.zst`)
- **每个分块含文件数**:约800个音频文件
提供机构:
maas
创建时间:
2025-07-12
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个名为UwUpad Soundboard Audio Collection的音频集合,包含48,366个MP3格式的音频文件,适用于音效板应用,覆盖梗、音乐片段、语音样本和音效等多种类别。数据集以俄语为主要语言,英语为次要语言,并提供丰富的元数据(如标题、标签和图像URL),采用webdataset格式高效存储,包含61个音频分片和一个压缩的JSONL元数据文件。
以上内容由遇见数据集搜集并总结生成



