five

LOTUSDIS

收藏
arXiv2025-09-23 更新2025-09-25 收录
下载链接:
https://github.com/kwanchiva/LOTUSDIS
下载链接
链接失效反馈
官方服务:
资源简介:
LOTUSDIS是一个公开可用的泰语会议语料库,旨在推进远场对话式语音识别。该数据集包含114小时的自由、未经编排的对话,采集于15-20分钟的会议中,参与者为三人,其中频繁出现重叠语音。语音同时由九个独立的单通道设备录制,跨越六种麦克风类型,距离从0.12m到10m不等,保留了回声、噪声和设备染色等真实效果,无需依赖麦克风阵列。我们提供标准的训练/开发/测试分割,并发布了一个可复制的基线系统。我们在零样本和微调条件下对几个Whisper变体进行了基准测试。现成的模型在距离较远时表现出了明显的退化,证实了预训练数据和泰语远场语音之间的不匹配。在LOTUSDIS上进行微调后,鲁棒性得到了显著提高:一个泰语Whisper基线将整体WER从64.3%降低到38.3%,远场WER从81.6%降低到49.5%,尤其是在最远的麦克风上取得了特别大的提升。这些结果突出了距离多样化的训练数据对于鲁棒ASR的重要性。该语料库在CC-BY-SA 4.0许可下可用。我们还发布了一个训练和评估脚本作为基线系统,以促进该领域可复现的研究。

LOTUSDIS is a publicly available Thai meeting corpus designed to advance far-field conversational speech recognition. The dataset contains 114 hours of spontaneous, unscripted dialogues collected from 15-20 minute meetings with three participants, featuring frequent overlapping speech. The speech was simultaneously recorded by nine independent single-channel devices across six microphone types, with distances ranging from 0.12m to 10m, preserving realistic acoustic effects including reverberation, noise, and device coloring, without relying on microphone arrays. We provide standard train/development/test splits and release a reproducible baseline system. We benchmarked several Whisper variants under zero-shot and fine-tuning settings. Off-the-shelf models exhibited significant performance degradation at distant recording positions, confirming the mismatch between pre-training data and Thai far-field speech. After fine-tuning on LOTUSDIS, model robustness was significantly improved: a Thai Whisper baseline reduced the overall Word Error Rate (WER) from 64.3% to 38.3% and the far-field WER from 81.6% to 49.5%, with particularly substantial gains achieved especially on the farthest microphones. These results highlight the critical importance of distance-diverse training data for robust automatic speech recognition (ASR). This corpus is available under the CC-BY-SA 4.0 license. We also release training and evaluation scripts as part of the baseline system to promote reproducible research in this domain.
提供机构:
泰国国家电子和计算机技术中心(NECTEC)
创建时间:
2025-09-23
原始信息汇总

LOTUSDIS: 泰语远场会议语料库

概述

  • 语言:泰语
  • 领域:对话式、多说话人、远场
  • 时长:约114小时(训练集约88小时,开发集12.8小时,测试集13.3小时)
  • 说话人:86人(年龄19-48岁;包含自发对话和重叠语音)
  • 场景:带家具的办公室(16×9.5×2.7米),存在固定噪声源

设备布局与划分

  • 使用九个单通道设备进行录音,示例设备包括:lav123(约12-15厘米)、con123(约0.5米)、jbl(约2米)、bt3m(3米)、bt10m(10米)
  • 官方数据划分位于 data/manifests/ 目录

数据下载

  • 提供辅助脚本下载数据,支持选择子集和通道
  • 使用命令: bash pip install -r scripts/requirements.txt python scripts/download_lotusdis.py --root ./data --subset train,dev,test --channels lav123,con123,jbl,bt3m,bt10m --verify

基准结果

主要发现

  • 在领域内LOTUSDIS数据上微调可将整体WER从64.3%降低至38.3%
  • 在远场麦克风上,微调可将WER从81.6%降低至49.5%
  • WER随距离和说话人重叠(2人和3人)而增加

整体结果(Pathumma Whisper模型)

模型 训练方式 评估子集 WER (%)
Pathumma Whisper 零样本 全部 64.3
Pathumma Whisper LOTUSDIS微调 全部 38.3
Pathumma Whisper 零样本 仅远场 81.6
Pathumma Whisper LOTUSDIS微调 仅远场 49.5

引用信息

@misc{tipaksorn2025lotusdisthaifarfieldmeeting, title={LOTUSDIS: A Thai far-field meeting corpus for robust conversational ASR}, author={Pattara Tipaksorn and Sumonmas Thatphithakkul and Vataya Chunwijitra and Kwanchiva Thangthai}, year={2025}, eprint={2509.18722}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2509.18722}, }

许可证

  • 使用CC-BY-SA 4.0许可证
  • 使用本数据集需同意 LICENSEdocs/TERMS.md 中的条款
搜集汇总
数据集介绍
main_image_url
构建方式
LOTUSDIS语料库的构建采用多通道同步录音技术,在真实办公环境中采集了114小时的自然对话数据。录音过程在配备常规环境噪声的16×9.5×2.7米会议室进行,通过九种独立单通道麦克风覆盖0.12米至10米的距离范围,完整保留了混响、噪声与设备音色差异等声学特性。数据标注采用两级校验机制,由专业标注人员完成分段转写和重叠语音标记,最终形成包含12万条语音片段的标准化数据集。
特点
该数据集的核心价值在于其多维度声学多样性,涵盖六类商用麦克风设备在近场与远场条件下的同步录音。语料包含31.5%的自然重叠对话,真实还原了多人会议场景的交互特征。不同于依赖麦克风阵列的传统语料,LOTUSDIS通过单通道设备配置更贴近实际部署环境,其10米超远距离录音为低资源泰语远场语音识别提供了独特的研究基准。数据划分遵循88小时训练集、12.8小时开发集与13.3小时测试集的科学比例,确保模型评估的可靠性。
使用方法
研究者可通过GitHub开源仓库获取标准化数据切片与基线系统代码,支持端到端的模型训练与评估。数据集兼容PyThaiNLP文本处理工具链,提供基于Whisper架构的微调范例,涵盖零样本测试、全数据微调及单麦克风专项训练等多种实验模式。针对重叠语音识别任务,语料提供显式的说话人重叠标注掩码,便于开发分离算法与联合优化策略。数据使用遵循CC-BY-SA 4.0协议,支持学术与商业场景的合规应用。
背景与挑战
背景概述
自动语音识别技术虽已取得显著进展,但在真实会议场景中的性能仍面临严峻挑战。LOTUSDIS数据集由泰国国家电子与计算机技术中心的语音与文本理解研究团队于2025年发布,旨在填补泰语远场会话语音资源的空白。该数据集收录了114小时的自然对话语音,涵盖86名参与者在真实办公室环境中的自发交流,特别聚焦于多设备远场录音条件下的语音识别研究。作为首个公开的泰语远场会议语料库,其采用CC-BY-SA 4.0许可协议,为低资源语言环境下的鲁棒性语音识别研究提供了重要基础。
当前挑战
LOTUSDIS主要应对远场自动语音识别中的声学挑战,包括由混响、环境噪声和设备差异导致的信号退化问题。在构建过程中,研究团队需克服多通道同步录音的技术难题,确保九种独立单通道设备在0.12米至10米距离范围内的数据对齐精度。此外,数据集包含高达31.5%的自然语音重叠比例,这对说话人分离与语音识别模型提出了更高要求。实验表明,未经微调的预训练模型在远场条件下词错误率高达81.6%,凸显了声学失配与多说话人交互带来的核心挑战。
常用场景
经典使用场景
LOTUSDIS数据集在远场语音识别研究中扮演着关键角色,其经典应用场景聚焦于多说话人自然对话的自动转录。该数据集通过模拟真实会议环境,捕捉了包括语音重叠、混响效应和设备噪声在内的复杂声学条件。研究人员利用其多麦克风配置和距离多样性,系统评估ASR模型在远场条件下的鲁棒性,尤其在低资源泰语环境中填补了现有语料库的空白。
解决学术问题
该数据集有效解决了远场语音识别中的领域不匹配问题,揭示了预训练模型在真实声学场景下的性能衰减规律。通过提供距离跨度达0.12至10米的同步录音数据,LOTUSDIS为研究混响补偿、设备色散效应以及重叠语音分离等核心挑战提供了实验基础。其标注体系支持对泰语声调敏感性的分析,推动了低资源语言ASR的算法公平性研究。
衍生相关工作
基于该数据集衍生的经典工作包括对Whisper架构的泰语适配研究,如Pathumma-whisper-th-large-v3模型的微调实验。这些研究系统探索了数据增强策略对远场泛化能力的提升,例如通过卷积房间脉冲响应模拟混响环境。相关工作还推动了单麦克风训练与多设备泛化的对比分析,为资源受限场景下的模型优化提供了方法论参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作