BrunoHays/UBS
收藏Hugging Face2024-04-04 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/BrunoHays/UBS
下载链接
链接失效反馈官方服务:
资源简介:
该数据集收集了来自Accueil_UBS数据集的339个电话对话片段,旨在评估在真实情境下,特别是呼叫中心环境中的法语自动语音识别系统。数据集包含了音频文件和对话的文字转录,所有对话均为法语。数据集还进行了修改,包括删除不符合标准的样本和文本的标准化处理。
该数据集收集了来自Accueil_UBS数据集的339个电话对话片段,旨在评估在真实情境下,特别是呼叫中心环境中的法语自动语音识别系统。数据集包含了音频文件和对话的文字转录,所有对话均为法语。数据集还进行了修改,包括删除不符合标准的样本和文本的标准化处理。
提供机构:
BrunoHays
原始信息汇总
数据集概述
基本信息
- 语言: 法语
- 数据集名称: Accueil UBS
- 大小: 小于1K
- 许可证: CC BY-SA 4.0
数据集内容
- 描述: 该数据集包含339个电话对话片段,旨在评估自动语音识别系统在实际呼叫中心环境中的表现,特别是法语环境。
- 来源: 数据来源于Université de Bretagne Sud的真实电话接待记录。
- 内容: 包括音频文件和对话的正字法转录。
数据处理
- 过滤: 移除了以下类型的样本:
- 声音重叠
- 少于3个单词
- 包含拼写(主要是UBS)
- 已匿名化(姓名和名字被替换为“Nom”和“Prénom”)
- 文本标准化:
- 原始文本保留在“raw_sentence”键下。
- 在“sentence”键下进行了以下转换:
- 删除非口语文本字符(如“e”, “#”, “[]”, “()”)
- 使用Text2Num包将数字转换为数字形式(例如,dix-sept → 17)
引用信息
- 作者: Jean-Yves Antoine
- 年份: 2016
- 数据集版本: v1
- 链接: Accueil_UBS



