Elite35P-Server/EliteVoiceProject
收藏Hugging Face2023-01-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Elite35P-Server/EliteVoiceProject
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- crowdsourced
language_creators:
- さくらみこ
- hololive production
language:
- ja
multilinguality:
- monolingual
license: other
---
# Elite Voice Project
これはホロライブ所属Vtuberさくらみこ氏の声をデータセット化し音声認識などで活用できるようにする事を目的とした非公式プロジェクトです。
---
# LICENSEについて
## データセット内の音声データ
すべてのデータは、[hololive productionの二次創作ガイドライン](https://hololive.hololivepro.com/guidelines/)に準拠する形で利用されています。
これらのデータの著作権はカバー株式会社等が保有しており、リポジトリオーナー、コントリビューターは一切の権利を有しておりません。
---
# 当プロジェクトへのご協力
当プロジェクトは皆様のご協力を心より歓迎いたします。 以下の方法をご一読いただき、そのうえでプルリクエストをお願い致します。
## 始める前に
[hololive productionの二次創作ガイドライン](https://hololive.hololivepro.com/guidelines/)を必ずお読みください。
---
## 音声データの追加
基本的には、データセットに追加したい音声データを`audio_raw`ディレクトリ内の所定のディレクトリへ追加していただく形になります。
git等を使用して音声データを追加する場合にはgit-lfsが必要になります。事前にgit-lfsのインストールをお願い致します。
`audio_raw`ディレクトリ内の構造は以下の通りです。
```
audio_raw
├─twitch
│ ├─test
│ │ └─<ID>
│ │ ├─1.mp3
│ │ ├─2.mp3
│ │ ├─3.mp3
│ │ ├─.
│ │ └─.
│ └─train
│ └─<ID>
│ ├─1.mp3
│ ├─2.mp3
│ ├─3.mp3
│ ├─.
│ └─.
├─twitter
│ ├─test
│ │ └─<ID>
│ │ ├─1.mp3
│ │ ├─2.mp3
│ │ ├─3.mp3
│ │ ├─.
│ │ └─.
│ └─train
│ └─<ID>
│ ├─1.mp3
│ ├─2.mp3
│ ├─3.mp3
│ ├─.
│ └─.
└─youtube
├─test
│ └─<ID>
│ ├─1.mp3
│ ├─2.mp3
│ ├─3.mp3
│ ├─.
│ └─.
└─train
└─<ID>
├─1.mp3
├─2.mp3
├─3.mp3
├─.
└─.
```
- `youtube`, `twitch`, `twitch`ディレクトリはデータセットに追加するデータの切り出し元のプラットフォーム名です。
- `train`と`test`ディレクトリについてですが、[OpenAI Whisper](https://openai.com/blog/whisper/)等の学習を行う際にtrainとtest、2種類のデータが必要になるために存在しています。
- `train`と`test`には同じ配信から切り出したデータを入れても良いですが全く同じデータを入れることは辞めてください。正確に学習を行うことができなくなります。
- `<ID>`には音声データを切り出す元になった配信等のIDが入ります。
- YouTubeであれば`https://www.youtube.com/watch?v=X9zw0QF12Kc`の`X9zw0QF12Kc`がディレクトリ名となります。
- Twitterであれば`https://twitter.com/i/spaces/1lPKqmyQPOAKb`の`1lPKqmyQPOAKb`がディレクトリ名となります。
- Twitchであれば`https://www.twitch.tv/videos/824387510`の`824387510`がディレクトリ名となります。
- `<ID>`ディレクトリ内には連番でmp3形式の音声ファイルを入れてください。
- 音声データは30秒以内である必要があります。
- BGMやSE、ノイズ等が含まれる音声データは避けてください。
- あまりに短すぎる音声データは避けてください。(既にデータセットにある音声は削除予定です。)
- 出来る限り30秒に近い音声データを入れていただけると助かります。
- 文脈のある音声データが望ましいです。
- 英語の音声は避けてください。
---
## 書き起こしテキストデータの追加
基本的には、データセットに追加したい音声データの書き起こしテキストデータを`transcript_raw`ディレクトリ内の所定のディレクトリへ追加していただく形になります。
`transcript_raw`ディレクトリ内の構造は以下の通りです。
```
transcript_raw
├─twitch
│ ├─test
│ │ └─<ID>.csv
│ │
│ └─train
│ └─<ID>.csv
│
├─twitter
│ ├─test
│ │ └─<ID>.csv
│ │
│ └─train
│ └─<ID>.csv
│
└─youtube
├─test
│ └─<ID>.csv
│
└─train
└─<ID>.csv
```
- `youtube`, `twitch`, `twitch`ディレクトリはデータセットに追加するデータの切り出し元のプラットフォーム名です。
- `<ID>`には音声データを切り出す元になった配信等のIDが入ります。
- YouTubeであれば`https://www.youtube.com/watch?v=X9zw0QF12Kc`の`X9zw0QF12Kc`がディレクトリ名となります。
- Twitterであれば`https://twitter.com/i/spaces/1lPKqmyQPOAKb`の`1lPKqmyQPOAKb`がディレクトリ名となります。
- Twitchであれば`https://www.twitch.tv/videos/824387510`の`824387510`がディレクトリ名となります。
- `<ID>.csv`について
- 必ず`audio_raw`に追加した音声データに対応した書き起こしテキストを追加する必要があります。
- 句読点、!,?等は正確に入れてください。
- 半角英数字記号を使用してください。(!, ?, 1等)
- 漢数字は避けてください。
- csvファイルの1行目は必ず`path,sentence`で始めてください。
- 書き起こしテキストはWhisper等で一度書き起こしたものを修正して行く方法を推奨致します。
### CSVファイルの記述例
```csv
path,sentence
1.mp3,雷が落ちた時のみこ
2.mp3,コメント止まった?
3.mp3,見えてるー?いやコメント止まった。壊れた。
4.mp3,インターネット繋がってない!
5.mp3,雷鳴ったよまた
```
annotations_creators:
- 众包
language_creators:
- 樱巫女(さくらみこ)
- hololive production(ホロライブプロダクション)
language:
- ja(日语)
multilinguality:
- 单语言
license: 其他
# Elite语音项目
本项目为非官方项目,旨在将Hololive旗下虚拟主播(Virtual YouTuber,简称Vtuber)樱巫女(さくらみこ)的语音制作成数据集,以供语音识别等场景使用。
---
# 关于许可证
## 数据集内的音频数据
本数据集所有音频数据均遵循[hololive production二次创作指南](https://hololive.hololivepro.com/guidelines/)。
上述数据的著作权归Cover株式会社等所有,本仓库所有者及贡献者不享有任何相关权利。
---
# 项目贡献须知
本项目诚挚欢迎各位的贡献,请先阅读以下说明,再提交拉取请求。
## 开始前须知
请务必阅读[hololive production二次创作指南](https://hololive.hololivepro.com/guidelines/)。
---
## 音频数据添加
通常情况下,请将需添加至数据集的音频文件放入`audio_raw`目录下的对应子目录中。
若通过Git等工具提交音频数据,需预先安装Git LFS。
`audio_raw`目录的结构如下:
audio_raw
├─twitch
│ ├─test
│ │ └─<ID>
│ │ ├─1.mp3
│ │ ├─2.mp3
│ │ ├─3.mp3
│ │ ├─.
│ │ └─.
│ └─train
│ └─<ID>
│ ├─1.mp3
│ ├─2.mp3
│ ├─3.mp3
│ ├─.
│ └─.
├─twitter
│ ├─test
│ │ └─<ID>
│ │ ├─1.mp3
│ │ ├─2.mp3
│ │ ├─3.mp3
│ │ ├─.
│ │ └─.
│ └─train
│ └─<ID>
│ ├─1.mp3
│ ├─2.mp3
│ ├─3.mp3
│ ├─.
│ └─.
└─youtube
├─test
│ └─<ID>
│ ├─1.mp3
│ ├─2.mp3
│ ├─3.mp3
│ ├─.
│ └─.
└─train
└─<ID>
├─1.mp3
├─2.mp3
├─3.mp3
├─.
└─.
- `youtube`、`twitch`、`twitch`目录为需添加至数据集的音频的来源平台名称。
- 关于`train`与`test`目录:因训练(train)与测试(test)两类数据是诸如[OpenAI Whisper](https://openai.com/blog/whisper/)等模型进行训练时的必需数据,故设置该目录。
- 允许在`train`与`test`目录中放入来自同一场直播的切片数据,但请勿放入完全相同的音频文件,否则将导致模型无法正确训练。
- `<ID>`需填入音频切片来源的直播或内容的ID:
- 以YouTube为例,链接`https://www.youtube.com/watch?v=X9zw0QF12Kc`中的`X9zw0QF12Kc`即为对应的目录名。
- 以Twitter为例,链接`https://twitter.com/i/spaces/1lPKqmyQPOAKb`中的`1lPKqmyQPOAKb`即为对应的目录名。
- 以Twitch为例,链接`https://www.twitch.tv/videos/824387510`中的`824387510`即为对应的目录名。
- 请在`<ID>`目录内放入以连续序号命名的MP3格式音频文件:
- 单条音频时长需控制在30秒以内。
- 请勿上传包含背景音乐(BGM)、特效音(SE)或杂音的音频。
- 请勿上传过短的音频(当前数据集中的过短音频将被移除)。
- 建议尽量上传时长接近30秒的音频。
- 优先选择带有完整语义的音频。
- 请勿上传英语音频。
---
## 转录文本数据添加
通常情况下,请将需添加至数据集的音频转录文本放入`transcript_raw`目录下的对应子目录中。
`transcript_raw`目录的结构如下:
transcript_raw
├─twitch
│ ├─test
│ │ └─<ID>.csv
│ │
│ └─train
│ └─<ID>.csv
│
├─twitter
│ ├─test
│ │ └─<ID>.csv
│ │
│ └─train
│ └─<ID>.csv
│
└─youtube
├─test
│ └─<ID>.csv
│
└─train
└─<ID>.csv
- `youtube`、`twitch`、`twitch`目录为需添加至数据集的转录文本的来源平台名称。
- `<ID>`需填入音频切片来源的直播或内容的ID,规则与音频数据部分一致。
- 关于`<ID>.csv`文件:
- 必须为`audio_raw`目录中对应的音频文件添加转录文本。
- 请准确添加标点符号(如逗号、句号、感叹号、问号等)。
- 请使用半角英文字符、数字及符号(如`!`、`?`、`1`等)。
- 请勿使用汉字数字。
- CSV文件的第一行必须以`path,sentence`作为表头。
- 建议先通过Whisper等工具自动生成转录文本,再手动修正完善。
### CSV文件格式示例
csv
path,sentence
1.mp3,打雷时的樱巫女
2.mp3,评论区卡住了?
3.mp3,能看到吗?不对,评论区卡住了,崩了。
4.mp3,网络连不上!
5.mp3,又打雷了。
提供机构:
Elite35P-Server
原始信息汇总
数据集概述
数据集名称
- Elite Voice Project
数据集目的
- 旨在将hololive所属Vtuberさくらみこ的声音数据集化,以便用于语音识别等领域。
语言信息
- 语言: 日语 (ja)
- 语言创建者: さくらみこ, hololive production
- 注释创建方式: 众包
- 多语言性: 单语种
许可信息
- 许可证: 其他
- 版权声明: 数据集内的音频数据版权由カバー株式会社等持有,仓库所有者和贡献者不拥有任何权利。所有数据使用遵循hololive production的二次创作指南。
数据集结构
-
音频数据:
- 存储于
audio_raw目录,根据来源平台分为youtube,twitch,twitter。 - 每个平台下分为
train和test两个子目录,用于不同的数据集训练和测试。 - 每个子目录下按ID存储音频文件,文件格式为mp3,长度不超过30秒,且应避免包含背景音乐、音效或噪音。
- 存储于
-
文本数据:
- 存储于
transcript_raw目录,同样根据来源平台分为youtube,twitch,twitter。 - 每个平台下分为
train和test两个子目录,存储对应音频的文本转录数据。 - 文本数据以CSV格式存储,文件名为
<ID>.csv,内容包括音频文件路径和对应的转录文本。
- 存储于
数据集贡献指南
- 贡献者需遵循hololive production的二次创作指南。
- 音频和文本数据的添加应按照指定目录结构进行,确保数据的一致性和准确性。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



