soda_tts
收藏魔搭社区2025-05-30 更新2025-03-08 收录
下载链接:
https://modelscope.cn/datasets/pengzhendong/soda_tts
下载链接
链接失效反馈官方服务:
资源简介:
# Dataset Card for TTS SODA
This is a TTS synthesized version of [SODA](https://aclanthology.org/2023.emnlp-main.799/) using [ChatTTS](https://github.com/2noise/ChatTTS).
## Dataset Details
### Dataset Information
- **Language:** English
- **License:** CC BY: Creative Commons Attribution
- **Repository:** TBA
- **Paper:** TBA
### Data Fields
- **input_audio:** TTS synthesized audio of the input_transcript
- **output_audio:** TTS synthesized audio of the output_transcript
- **original_index:** Index of dialogue from the original SODA dataset
- **dialogue_turn:** Dialogue turn number of the input_audio
- **input_tts_wer:** WER of Whisper V3 transcript of input_audio against the input_transcript
- **output_tts_wer:** WER of Whisper V3 transcript of output_audio against the output_transcript
- **input_tokens:** [Speechtokenizer](https://huggingface.co/fnlp/AnyGPT-speech-modules/tree/main/speechtokenizer) tokens of the input_audio
- **output_tokens:** [Speechtokenizer](https://huggingface.co/fnlp/AnyGPT-speech-modules/tree/main/speechtokenizer) tokens of the output_audio
- **input_transcript:** Text of input query
- **output_transcript:** Text of output response
## Citation
<!-- If there is a paper or blog post introducing the dataset, the APA and Bibtex information for that should go in this section. -->
**BibTeX:**
TBA
# TTS SODA 数据集卡片
本数据集为基于[ChatTTS](https://github.com/2noise/ChatTTS)对[SODA](https://aclanthology.org/2023.emnlp-main.799/)进行文本转语音(Text-to-Speech,TTS)合成得到的衍生版本。
## 数据集详情
### 数据集信息
- **语言:** 英语
- **许可协议:** CC BY(知识共享署名许可)
- **代码仓库:** 待公布(TBA)
- **相关论文:** 待公布(TBA)
### 数据字段
- **input_audio:** 针对input_transcript(输入文本)通过文本转语音合成得到的音频
- **output_audio:** 针对output_transcript(输出文本)通过文本转语音合成得到的音频
- **original_index:** 原SODA数据集中对话的索引编号
- **dialogue_turn:** 当前输入音频对应的对话轮次序号
- **input_tts_wer:** 输入音频TTS词错误率(Word Error Rate,WER),即针对输入音频经Whisper V3转录得到的文本与input_transcript(输入文本)的词错误率
- **output_tts_wer:** 输出音频TTS词错误率(Word Error Rate,WER),即针对输出音频经Whisper V3转录得到的文本与output_transcript(输出文本)的词错误率
- **input_tokens:** 输入音频经[语音分词器(Speechtokenizer)](https://huggingface.co/fnlp/AnyGPT-speech-modules/tree/main/speechtokenizer)提取得到的Token序列
- **output_tokens:** 输出音频经[语音分词器(Speechtokenizer)](https://huggingface.co/fnlp/AnyGPT-speech-modules/tree/main/speechtokenizer)提取得到的Token序列
- **input_transcript:** 输入查询的文本内容
- **output_transcript:** 输出回复的文本内容
## 引用
<!-- 若该数据集配有介绍论文或博客文章,请在此处添加对应的APA及BibTeX引用信息。 -->
**BibTeX格式引用:**
待补充(TBA)
提供机构:
maas
创建时间:
2025-03-06



