LOTUSDIS
收藏github2025-09-24 更新2025-09-27 收录
下载链接:
https://github.com/kwanchiva/LOTUSDIS
下载链接
链接失效反馈官方服务:
资源简介:
LOTUSDIS是一个泰语非阵列会议语料库,专为真实办公室环境下的远场转录设计。它包含约114小时的多通道语音(约20小时独特会话时间),记录在每次15-20分钟的会话中,每个会话有3名说话者。九个单通道设备从近场到10米捕获音频,保留设备和房间效应(如HVAC、饮水机等)。提供训练/开发/测试分割和基线ASR基准。
LOTUSDIS is a Thai non-array meeting corpus specifically designed for far-field speech transcription in real office environments. It contains approximately 114 hours of multi-channel speech, which corresponds to roughly 20 hours of unique session time. Each session lasts 15 to 20 minutes and involves three speakers. Nine single-channel audio capture devices record audio from near-field locations up to a distance of 10 meters, preserving both device-specific and room acoustic effects such as HVAC systems, water dispensers, and other ambient noises. Predefined training/development/test splits and baseline ASR benchmarks are provided alongside this corpus.
创建时间:
2025-09-21
原始信息汇总
LOTUSDIS: 泰语远场会议语料库
概述
- 语言:泰语
- 领域:会话、多说话人、远场
- 时长:约114小时(训练集约88小时,开发集12.8小时,测试集13.3小时)
- 说话人:86人(年龄19-48岁;包含重叠的自发对话)
- 场景:带家具的办公室(16×9.5×2.7米),存在固定噪声源
设备布局与数据划分
- 设备:九个单通道设备(示例:lav123约12-15厘米,con123约0.5米,jbl约2米,bt3m约3米,bt10m约10米)
- 数据划分:官方划分位于
data/manifests/目录
下载
- 许可证:CC-BY-SA 4.0
- 下载方式:使用提供的辅助脚本下载,可指定根目录、子集、通道等参数
基线结果
主要发现
- 在LOTUSDIS领域内微调可将整体词错误率从64.3%降低至38.3%
- 在远场麦克风上,微调可将词错误率从81.6%降低至49.5%
- 词错误率随距离和重叠(2人和3人说话)增加而上升
Pathumma Whisper模型性能
| 模型 | 训练方式 | 评估子集 | 词错误率 (%) |
|---|---|---|---|
| Pathumma Whisper | 零样本 | 全部 | 64.3 |
| Pathumma Whisper | 在LOTUSDIS上微调 | 全部 | 38.3 |
| Pathumma Whisper | 零样本 | 仅远场 | 81.6 |
| Pathumma Whisper | 在LOTUSDIS上微调 | 仅远场 | 49.5 |
引用
@misc{tipaksorn2025lotusdisthaifarfieldmeeting, title={LOTUSDIS: A Thai far-field meeting corpus for robust conversational ASR}, author={Pattara Tipaksorn and Sumonmas Thatphithakkul and Vataya Chunwijitra and Kwanchiva Thangthai}, year={2025}, eprint={2509.18722}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2509.18722}, }
搜集汇总
数据集介绍

构建方式
在语音识别研究领域,构建真实场景下的远场对话语料库对提升模型鲁棒性至关重要。LOTUSDIS数据集的构建过程精心设计了多设备采集方案,在配备固定噪声源的办公环境中录制了86名19至48岁说话者的自发对话。每个会话持续15至20分钟,由3名说话者参与,通过9个单通道设备覆盖从12厘米到10米的不同距离范围,完整保留了设备特性与真实环境声学效应。
特点
该数据集显著特点体现在其多维度真实性,不仅包含约114小时多通道语音数据,更通过分层采集策略呈现声学衰减效应。九组设备同步捕获的语音数据形成了从近场到远场的连续观测序列,其中训练集、开发集与测试集的时长分别为88小时、12.8小时和13.3小时。对话内容包含自然重叠现象,配合空调、饮水机等持续环境噪声,为研究复杂声学场景下的语音识别提供了理想样本。
使用方法
研究者可通过官方提供的Python脚本便捷获取数据,使用pip安装依赖包后指定存储路径、数据子集及设备通道即可完成下载验证。数据集采用标准清单文件管理格式,支持直接接入主流语音识别训练流程。基线实验表明,基于该数据集对Pathumma Whisper模型进行微调后,远场语音识别的词错误率可从81.6%显著降至49.5%,验证了其在提升模型环境适应性方面的实用价值。
背景与挑战
背景概述
LOTUSDIS语料库作为泰语远场会议转录研究的重要资源,由Pattara Tipaksorn等研究人员于2025年构建,旨在解决多说话人自然对话场景下的自动语音识别难题。该数据集在真实办公环境中采集了约114小时的多通道语音数据,涵盖86名说话者的自发对话,包含大量语音重叠与背景噪声干扰。其设计聚焦于远场条件下设备多样性、声学环境复杂性对识别性能的影响,为低资源语言的对话式ASR研究提供了关键数据支撑,显著推动了东南亚语言语音技术的前沿探索。
当前挑战
该数据集核心挑战在于应对远场多说话人对话场景的声学复杂性,包括设备距离差异导致的信号衰减、背景噪声干扰以及自发对话中的语音重叠现象。构建过程中需克服多设备同步采集的技术难点,确保在10米范围内不同距离麦克风的数据一致性,同时需平衡说话人年龄分布与对话自然度,并设计能够反映真实办公环境声学特性的数据划分策略。
常用场景
经典使用场景
在语音识别研究领域,LOTUSDIS数据集被广泛应用于远场多说话人对话场景的模型训练与评估。该数据集通过模拟真实办公环境中的会议对话,涵盖了从近场到10米远距离的音频采集,为研究远场语音识别中的声学挑战提供了丰富数据。研究人员常利用其多通道录音特性,分析设备布局、环境噪声及说话人重叠对识别性能的影响,进而优化模型在复杂声学条件下的鲁棒性。
衍生相关工作
围绕LOTUSDIS数据集,已衍生出多项聚焦于泰语远场语音识别的创新研究。例如,基于该数据集的基线实验表明,对预训练模型(如Pathumma Whisper)进行领域自适应微调后,远场语音识别的词错误率可从81.6%显著降至49.5%。这些工作进一步推动了多设备数据融合、噪声鲁棒性建模等方向的发展,并为低资源语言的对话式语音识别提供了可复现的评估框架。
数据集最近研究
最新研究方向
在泰语远场会议语音识别领域,LOTUSDIS数据集的推出显著推动了多通道远场语音处理技术的前沿探索。该数据集通过模拟真实办公环境中的多说话人对话场景,涵盖了从近场到10米远距离的音频采集,为研究设备差异、环境噪声及语音重叠等挑战提供了丰富资源。当前研究重点聚焦于利用领域自适应方法优化预训练模型,如Pathumma Whisper的微调实验表明,模型在远场设备上的词错误率可从81.6%降至49.5%,凸显了数据驱动方法在提升低资源语言鲁棒性方面的重要价值。这一进展不仅促进了对话系统在复杂声学环境中的实用化,也为跨文化语音技术研究提供了关键基准。
以上内容由遇见数据集搜集并总结生成



