seamless-interaction-transcripts
收藏Hugging Face2026-03-14 更新2026-03-16 收录
下载链接:
https://huggingface.co/datasets/ThBel/seamless-interaction-transcripts
下载链接
链接失效反馈官方服务:
资源简介:
Seamless Interaction Transcripts 是一个大规模对话数据集,源自 facebook/seamless-interaction 数据集。它包含超过 3000 个英语对话的逐字转录,涵盖从一般闲聊到客户服务的各种情境。该数据集旨在支持需要建模对话轮换的语音和对话系统的研究与开发,如实时对话代理。数据集包含 3335 个对话,平均每个对话有 37.47 轮,涉及 2000 多名说话者。转录使用 Whisper Large V3 Turbo 自动生成,其中约 200 个样本经过人工审核,估计单词错误率 (WER) 约为 2.8%。每个数据条目包括 interaction_id(交互标识符)、messages(转录文本,以 OpenAI 兼容的聊天消息缓冲区形式)、relation(高层关系标识符,如“陌生人”、“熟悉”)和 relation_detailed(详细关系标识符,如“同事”、“配偶”)。数据集采用 CC-BY-NC 4.0 许可,适用于学术和非商业用途。
创建时间:
2026-03-14



