five

soda_tts

收藏
魔搭社区2025-05-30 更新2025-03-08 收录
下载链接:
https://modelscope.cn/datasets/pengzhendong/soda_tts
下载链接
链接失效反馈
官方服务:
资源简介:
# Dataset Card for TTS SODA This is a TTS synthesized version of [SODA](https://aclanthology.org/2023.emnlp-main.799/) using [ChatTTS](https://github.com/2noise/ChatTTS). ## Dataset Details ### Dataset Information - **Language:** English - **License:** CC BY: Creative Commons Attribution - **Repository:** TBA - **Paper:** TBA ### Data Fields - **input_audio:** TTS synthesized audio of the input_transcript - **output_audio:** TTS synthesized audio of the output_transcript - **original_index:** Index of dialogue from the original SODA dataset - **dialogue_turn:** Dialogue turn number of the input_audio - **input_tts_wer:** WER of Whisper V3 transcript of input_audio against the input_transcript - **output_tts_wer:** WER of Whisper V3 transcript of output_audio against the output_transcript - **input_tokens:** [Speechtokenizer](https://huggingface.co/fnlp/AnyGPT-speech-modules/tree/main/speechtokenizer) tokens of the input_audio - **output_tokens:** [Speechtokenizer](https://huggingface.co/fnlp/AnyGPT-speech-modules/tree/main/speechtokenizer) tokens of the output_audio - **input_transcript:** Text of input query - **output_transcript:** Text of output response ## Citation <!-- If there is a paper or blog post introducing the dataset, the APA and Bibtex information for that should go in this section. --> **BibTeX:** TBA

# TTS SODA 数据集卡片 本数据集为基于[ChatTTS](https://github.com/2noise/ChatTTS)对[SODA](https://aclanthology.org/2023.emnlp-main.799/)进行文本转语音(Text-to-Speech,TTS)合成得到的衍生版本。 ## 数据集详情 ### 数据集信息 - **语言:** 英语 - **许可协议:** CC BY(知识共享署名许可) - **代码仓库:** 待公布(TBA) - **相关论文:** 待公布(TBA) ### 数据字段 - **input_audio:** 针对input_transcript(输入文本)通过文本转语音合成得到的音频 - **output_audio:** 针对output_transcript(输出文本)通过文本转语音合成得到的音频 - **original_index:** 原SODA数据集中对话的索引编号 - **dialogue_turn:** 当前输入音频对应的对话轮次序号 - **input_tts_wer:** 输入音频TTS词错误率(Word Error Rate,WER),即针对输入音频经Whisper V3转录得到的文本与input_transcript(输入文本)的词错误率 - **output_tts_wer:** 输出音频TTS词错误率(Word Error Rate,WER),即针对输出音频经Whisper V3转录得到的文本与output_transcript(输出文本)的词错误率 - **input_tokens:** 输入音频经[语音分词器(Speechtokenizer)](https://huggingface.co/fnlp/AnyGPT-speech-modules/tree/main/speechtokenizer)提取得到的Token序列 - **output_tokens:** 输出音频经[语音分词器(Speechtokenizer)](https://huggingface.co/fnlp/AnyGPT-speech-modules/tree/main/speechtokenizer)提取得到的Token序列 - **input_transcript:** 输入查询的文本内容 - **output_transcript:** 输出回复的文本内容 ## 引用 <!-- 若该数据集配有介绍论文或博客文章,请在此处添加对应的APA及BibTeX引用信息。 --> **BibTeX格式引用:** 待补充(TBA)
提供机构:
maas
创建时间:
2025-03-06
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作