five

BrunoHays/Accueil_UBS

收藏
Hugging Face2024-04-11 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BrunoHays/Accueil_UBS
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集汇集了从Accueil_UBS数据集中提取的339段电话对话,旨在评估在真实情况下,特别是在呼叫中心和法语环境中的自动语音识别系统。数据集包括录音文件和对话的文字转录,所有对话均为法语。数据集还进行了修改,包括删除不符合条件的样本和文本的标准化处理。

该数据集汇集了从Accueil_UBS数据集中提取的339段电话对话,旨在评估在真实情况下,特别是在呼叫中心和法语环境中的自动语音识别系统。数据集包括录音文件和对话的文字转录,所有对话均为法语。数据集还进行了修改,包括删除不符合条件的样本和文本的标准化处理。
提供机构:
BrunoHays
原始信息汇总

数据集概述

基本信息

  • 语言: 法语
  • 数据集名称: Accueil UBS
  • 大小: 小于1K
  • 许可证: CC BY-SA 4.0

数据集内容

  • 描述: 该数据集包含339个电话对话片段,旨在评估自动语音识别系统在实际呼叫中心环境中的表现,特别是法语环境。
  • 来源: 数据来源于Université de Bretagne Sud的真实电话接待录音,包括呼叫者与接待人员之间的对话。
  • 格式: 包括音频文件和对话的正字法转录。

数据处理

  • 过滤: 移除了以下类型的样本:
    • 声音重叠
    • 少于3个单词
    • 包含拼写(主要是UBS)
    • 已匿名化(名称和名字被替换为“Nom”和“Prénom”)
  • 文本标准化:
    • 原始文本保留在“raw_sentence”键下。
    • 在“sentence”键下进行了以下转换:
      • 删除非口语文本字符(如“e”, “#”, “[]”, “()”)
      • 使用Text2Num包将数字转换为数字形式(例如“dix-sept”→“17”)

引用信息

  • 作者: Jean-Yves Antoine
  • 年份: 2016
  • 数据集版本: v1
  • 链接: Accueil_UBS
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作