LOTUSDIS

github2025-09-24 更新2025-09-27 收录

下载链接：

https://github.com/kwanchiva/LOTUSDIS

下载链接

链接失效反馈

官方服务：

资源简介：

LOTUSDIS是一个泰语非阵列会议语料库，专为真实办公室环境下的远场转录设计。它包含约114小时的多通道语音（约20小时独特会话时间），记录在每次15-20分钟的会话中，每个会话有3名说话者。九个单通道设备从近场到10米捕获音频，保留设备和房间效应（如HVAC、饮水机等）。提供训练/开发/测试分割和基线ASR基准。

LOTUSDIS is a Thai non-array meeting corpus specifically designed for far-field speech transcription in real office environments. It contains approximately 114 hours of multi-channel speech, which corresponds to roughly 20 hours of unique session time. Each session lasts 15 to 20 minutes and involves three speakers. Nine single-channel audio capture devices record audio from near-field locations up to a distance of 10 meters, preserving both device-specific and room acoustic effects such as HVAC systems, water dispensers, and other ambient noises. Predefined training/development/test splits and baseline ASR benchmarks are provided alongside this corpus.

创建时间：

2025-09-21

原始信息汇总

LOTUSDIS: 泰语远场会议语料库

概述

语言：泰语
领域：会话、多说话人、远场
时长：约114小时（训练集约88小时，开发集12.8小时，测试集13.3小时）
说话人：86人（年龄19-48岁；包含重叠的自发对话）
场景：带家具的办公室（16×9.5×2.7米），存在固定噪声源

设备布局与数据划分

设备：九个单通道设备（示例：lav123约12-15厘米，con123约0.5米，jbl约2米，bt3m约3米，bt10m约10米）
数据划分：官方划分位于data/manifests/目录

下载

许可证：CC-BY-SA 4.0
下载方式：使用提供的辅助脚本下载，可指定根目录、子集、通道等参数

基线结果

主要发现

在LOTUSDIS领域内微调可将整体词错误率从64.3%降低至38.3%
在远场麦克风上，微调可将词错误率从81.6%降低至49.5%
词错误率随距离和重叠（2人和3人说话）增加而上升

Pathumma Whisper模型性能

模型	训练方式	评估子集	词错误率 (%)
Pathumma Whisper	零样本	全部	64.3
Pathumma Whisper	在LOTUSDIS上微调	全部	38.3
Pathumma Whisper	零样本	仅远场	81.6
Pathumma Whisper	在LOTUSDIS上微调	仅远场	49.5

引用

@misc{tipaksorn2025lotusdisthaifarfieldmeeting, title={LOTUSDIS: A Thai far-field meeting corpus for robust conversational ASR}, author={Pattara Tipaksorn and Sumonmas Thatphithakkul and Vataya Chunwijitra and Kwanchiva Thangthai}, year={2025}, eprint={2509.18722}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2509.18722}, }

搜集汇总

数据集介绍

构建方式

在语音识别研究领域，构建真实场景下的远场对话语料库对提升模型鲁棒性至关重要。LOTUSDIS数据集的构建过程精心设计了多设备采集方案，在配备固定噪声源的办公环境中录制了86名19至48岁说话者的自发对话。每个会话持续15至20分钟，由3名说话者参与，通过9个单通道设备覆盖从12厘米到10米的不同距离范围，完整保留了设备特性与真实环境声学效应。

特点

该数据集显著特点体现在其多维度真实性，不仅包含约114小时多通道语音数据，更通过分层采集策略呈现声学衰减效应。九组设备同步捕获的语音数据形成了从近场到远场的连续观测序列，其中训练集、开发集与测试集的时长分别为88小时、12.8小时和13.3小时。对话内容包含自然重叠现象，配合空调、饮水机等持续环境噪声，为研究复杂声学场景下的语音识别提供了理想样本。

使用方法

研究者可通过官方提供的Python脚本便捷获取数据，使用pip安装依赖包后指定存储路径、数据子集及设备通道即可完成下载验证。数据集采用标准清单文件管理格式，支持直接接入主流语音识别训练流程。基线实验表明，基于该数据集对Pathumma Whisper模型进行微调后，远场语音识别的词错误率可从81.6%显著降至49.5%，验证了其在提升模型环境适应性方面的实用价值。

背景与挑战

背景概述

LOTUSDIS语料库作为泰语远场会议转录研究的重要资源，由Pattara Tipaksorn等研究人员于2025年构建，旨在解决多说话人自然对话场景下的自动语音识别难题。该数据集在真实办公环境中采集了约114小时的多通道语音数据，涵盖86名说话者的自发对话，包含大量语音重叠与背景噪声干扰。其设计聚焦于远场条件下设备多样性、声学环境复杂性对识别性能的影响，为低资源语言的对话式ASR研究提供了关键数据支撑，显著推动了东南亚语言语音技术的前沿探索。

当前挑战

该数据集核心挑战在于应对远场多说话人对话场景的声学复杂性，包括设备距离差异导致的信号衰减、背景噪声干扰以及自发对话中的语音重叠现象。构建过程中需克服多设备同步采集的技术难点，确保在10米范围内不同距离麦克风的数据一致性，同时需平衡说话人年龄分布与对话自然度，并设计能够反映真实办公环境声学特性的数据划分策略。

常用场景

经典使用场景

在语音识别研究领域，LOTUSDIS数据集被广泛应用于远场多说话人对话场景的模型训练与评估。该数据集通过模拟真实办公环境中的会议对话，涵盖了从近场到10米远距离的音频采集，为研究远场语音识别中的声学挑战提供了丰富数据。研究人员常利用其多通道录音特性，分析设备布局、环境噪声及说话人重叠对识别性能的影响，进而优化模型在复杂声学条件下的鲁棒性。

衍生相关工作

围绕LOTUSDIS数据集，已衍生出多项聚焦于泰语远场语音识别的创新研究。例如，基于该数据集的基线实验表明，对预训练模型（如Pathumma Whisper）进行领域自适应微调后，远场语音识别的词错误率可从81.6%显著降至49.5%。这些工作进一步推动了多设备数据融合、噪声鲁棒性建模等方向的发展，并为低资源语言的对话式语音识别提供了可复现的评估框架。

数据集最近研究