linagora/SUMM-RE

Name: linagora/SUMM-RE
Creator: linagora
Published: 2024-10-15 06:26:08
License: 暂无描述

Hugging Face2024-10-15 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/linagora/SUMM-RE

下载链接

链接失效反馈

官方服务：

资源简介：

SUMM-RE small数据集是一个包含法语会议风格对话的语料库，用于SUMM-RE项目（ANR-20-CE23-0017）。该数据集是完整SUMM-RE语料库的一个子集，其转录已手动校正并与音频信号对齐至音素级别。它可用于评估自动语音识别和语音活动检测模型。SUMM-RE small子集包含10个随机选择的对话，每个对话大约20分钟，涉及3-4个说话者。每个参与者都有一个单独的麦克风和相关的.wav文件，总共有39个音频文件。数据集由法国国家研究机构资助，由Aix-Marseille大学的语言和语音实验室记录和注释，并由LINAGORA共享。

提供机构：

linagora

原始信息汇总

数据集概述

数据集描述

SUMM-RE small 数据集是一个法语会议风格对话的语料库，其转录文本已手动校正并与音频信号对齐至音素级别。该数据集适用于自动语音识别和语音活动检测模型的评估。

数据集组成

特征

meeting_id: 会议ID，包含实验编号、会议顺序、实验类型、场景/主题、会议类型和录音地点。
speaker_id: 说话者ID。
audio_id: 音频文件ID，由会议ID和说话者ID组成。
audio: 单个说话者的.wav音频文件。
transcript: 手动校正的转录文本。
ipus: 手动标注的语间单元（IPU）的开始和结束时间列表。
words: 每个单词的开始和结束时间列表。
phonemes: 每个音素的开始和结束时间列表。

数据分割

train: 训练集，包含39个样本，总大小为4440887851.0字节。

数据集大小

下载大小: 4416239830字节
数据集大小: 4440887851.0字节

数据集来源

创建者: 语言与语音实验室（LPL），艾克斯-马赛大学，法国。
资助者: 法国国家研究机构（ANR），SUMM-RE项目（ANR-20-CE23-0017）。
共享者: LINAGORA（SUMM-RE项目协调者）。
语言: 法语。
许可证: CC BY-SA 4.0。

数据集用途

直接用途

适用于对话式法语的自动语音识别模型和语音活动检测的评估。

非适用用途

由于数据集规模较小，不适合用于模型训练。

搜集汇总

数据集介绍

构建方式

在法语口语处理领域，SUMM-RE数据集的构建体现了严谨的学术设计。该数据集源自法国国家研究机构资助的SUMM-RE项目，由艾克斯-马赛大学语言与语音实验室负责原始录音与人工校正。数据采集过程模拟真实会议场景，每段对话约20分钟，包含3至4名参与者，每位参与者配备独立麦克风以获取高质量个体音频轨道。开发集与测试集经过专业标注人员手动转录与时间对齐，训练集则采用基于Whisper的混合流水线进行自动转录与对齐，确保了大规模数据的可用性。数据集的结构化标识体系，如会议编号、说话人标识及丰富的元数据，为后续分析提供了坚实基础。

特点

SUMM-RE数据集在法语会话语料库中展现出独特的多模态特性。其核心特征在于提供了音频信号与文本转录的精细对齐，每个音频轨道不仅包含整体转录文本，还细致标注了语音段落的起止时间及单词级的时间戳。数据覆盖多种会议类型与录制环境，包括现场会议与远程会议，反映了真实世界口语交流的多样性。数据集的标注遵循SPPAS体系，保留了口语中的特殊现象，如笑声、停顿、发音变体等，为研究自然对话的韵律与结构提供了丰富素材。此外，数据集在部分开发集数据中进行了半自动匿名化处理，兼顾了研究需求与隐私保护。

使用方法

该数据集主要服务于自动语音识别、语音活动检测及说话人日志等研究任务。使用者可通过Hugging Face的datasets库便捷加载，利用`load_dataset`函数访问完整数据集或特定分割。为应对数据规模，可采用流式加载选项以避免一次性下载全部内容。数据集中每个样本均以结构化格式呈现，包含音频数组、分段转录及单词级对齐信息，便于直接输入模型进行训练或评估。对于语言模型训练，可直接使用拼接后的转录文本；对于需要时序分析的任务，则可利用分段与单词层级的详细时间戳。数据集提供的示例子集有助于用户快速探索数据结构与内容。

背景与挑战

背景概述

在自然语言处理领域，针对法语口语对话的自动转录与理解一直是一项关键研究课题。SUMM-RE数据集由法国国家研究署资助的SUMM-RE项目（ANR-20-CE23-0017）于2024年正式发布，由艾克斯-马赛大学语言与语音实验室与LINAGORA联合创建。该数据集旨在为法语会议式对话的自动语音识别、语音活动检测及后续的会议摘要生成任务提供高质量的标注资源。其核心研究问题聚焦于解决法语口语，特别是多说话人、自然对话场景下的语音转写与对齐难题，为法语语音处理模型的发展奠定了重要基础。

当前挑战

SUMM-RE数据集所应对的领域挑战主要在于法语口语对话的自动转录与理解，这涉及处理多说话人重叠、口语化表达、非标准发音以及不同录音环境下的声学变异等问题。在构建过程中，挑战体现在大规模会议音频的手动转录与精细对齐需要耗费巨大人力，且需确保标注的一致性；同时，数据集部分内容采用自动化流程生成，需平衡自动标注的效率与人工校正的准确性。此外，数据采集涵盖多种场景（如现场、Zoom会议及家庭环境），统一处理不同采样率与音频质量的录音亦构成技术难点。

常用场景

经典使用场景

在法语口语处理领域，SUMM-RE数据集为自动语音识别和语音活动检测提供了关键评估基准。该数据集收录了多场会议式对话，每段音频均配有精确的时间戳和逐词转录，使得研究者能够针对真实场景下的法语对话进行模型性能测试。其精心划分的开发集和测试集经过人工校对，确保了评估结果的可靠性，尤其适用于衡量模型在多人交互、自然停顿及重叠语音等复杂情境下的表现。

衍生相关工作

围绕SUMM-RE数据集，已衍生出多项经典研究工作，例如Yamasaki等人提出的混合转录与对齐流程，为法语对话语音处理设立了新范式。该数据集亦被用于评估Whisper等先进语音识别模型在法语场景下的适应性，并催生了针对会议摘要生成、说话人角色识别等任务的算法优化。这些成果不仅丰富了法语计算语言学资源，也为多模态人机交互系统的研发提供了实证基础。

数据集最近研究