five

BrunoHays/UBS

收藏
Hugging Face2024-04-04 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/BrunoHays/UBS
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集收集了来自Accueil_UBS数据集的339个电话对话片段,旨在评估在真实情境下,特别是呼叫中心环境中的法语自动语音识别系统。数据集包含了音频文件和对话的文字转录,所有对话均为法语。数据集还进行了修改,包括删除不符合标准的样本和文本的标准化处理。

该数据集收集了来自Accueil_UBS数据集的339个电话对话片段,旨在评估在真实情境下,特别是呼叫中心环境中的法语自动语音识别系统。数据集包含了音频文件和对话的文字转录,所有对话均为法语。数据集还进行了修改,包括删除不符合标准的样本和文本的标准化处理。
提供机构:
BrunoHays
原始信息汇总

数据集概述

基本信息

  • 语言: 法语
  • 数据集名称: Accueil UBS
  • 大小: 小于1K
  • 许可证: CC BY-SA 4.0

数据集内容

  • 描述: 该数据集包含339个电话对话片段,旨在评估自动语音识别系统在实际呼叫中心环境中的表现,特别是法语环境。
  • 来源: 数据来源于Université de Bretagne Sud的真实电话接待记录。
  • 内容: 包括音频文件和对话的正字法转录。

数据处理

  • 过滤: 移除了以下类型的样本:
    • 声音重叠
    • 少于3个单词
    • 包含拼写(主要是UBS)
    • 已匿名化(姓名和名字被替换为“Nom”和“Prénom”)
  • 文本标准化:
    • 原始文本保留在“raw_sentence”键下。
    • 在“sentence”键下进行了以下转换:
      • 删除非口语文本字符(如“e”, “#”, “[]”, “()”)
      • 使用Text2Num包将数字转换为数字形式(例如,dix-sept → 17)

引用信息

  • 作者: Jean-Yves Antoine
  • 年份: 2016
  • 数据集版本: v1
  • 链接: Accueil_UBS
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作