five

DEBATE

收藏
arXiv2025-06-09 更新2025-06-11 收录
下载链接:
https://github.com/SmileHnu/DEBATE
下载链接
链接失效反馈
官方服务:
资源简介:
DEBATE是一个专门用于研究汉语语音消歧的语音-文本数据集,它旨在探讨语音线索如何帮助解决文本歧义,并揭示说话者的真正意图。该数据集包含1001个精心挑选的歧义性语句,每个语句由10位母语者录音,共超过10K条音频记录。数据集涵盖了多音字歧义、结构歧义和焦点歧义三种类型。DEBATE数据集的创建过程包括收集原始文本、语音数据录制和质量控制三个主要阶段。该数据集可用于评估和训练模型在语音消歧方面的能力,并为构建类似的语音消歧数据集奠定了基础。

DEBATE is a speech-text dataset specifically developed for research on Chinese speech disambiguation. It aims to investigate how speech cues assist in resolving textual ambiguities and revealing speakers' genuine intentions. This dataset comprises 1001 carefully curated ambiguous utterances, each recorded by 10 native speakers, yielding more than 10,000 audio recordings. It covers three types of ambiguities: polyphonic character ambiguity, structural ambiguity, and focus ambiguity. The development of the DEBATE dataset includes three main stages: collecting original texts, recording speech data, and conducting quality control. This dataset can be used to evaluate and train models' speech disambiguation capabilities, and lay a foundation for building similar speech disambiguation datasets.
提供机构:
湖南大学
创建时间:
2025-06-09
原始信息汇总

DEBATE数据集概述

数据集简介

  • 名称:DEBATE (A Dataset for Disentangling Textual Ambiguity in Mandarin Through Speech)
  • 类型:中文语音-文本数据集
  • 目的:研究语音线索(发音、停顿、重音和语调)如何帮助解决文本歧义并揭示说话者真实意图
  • 内容:包含1,001个精心挑选的歧义语句,每个语句由10名母语者录制

数据集统计

任务类型 样本数 时长(小时) 平均时长(秒) 时长范围(秒)
Task_Proun 2,000 1.64 2.94 1.15-5.80
Task_Pause 4,010 4.28 3.84 1.60-11.80
Task_Stres 4,000 3.74 3.37 1.43-8.51
总计 10,010 9.66 3.47 1.15-11.80

数据来源与构建

  1. 文本来源
    • 开源语料库
    • 社交媒体平台
    • 标准化考试题库
  2. 歧义类型标注
    • 多音字歧义
    • 结构歧义
    • 焦点歧义
  3. 额外标注
    • 每个句子的语义注释

数据采集与处理

  • 录制方式:10名人口特征平衡的说话者,使用手机双人协作录制
  • 质量控制
    • 音频文件数量验证
    • 随机抽样检查
    • 使用ASR模型进行音频CER测试
  • 后期处理:所有音频文件重采样至16kHz

数据结构

DEBATE_Audio

  • speaker_x
    • polyphone
      • sx_p_id_000.wav
      • sx_p_id_001.wav
    • segment
      • sx_seg_id_000.wav
      • sx_seg_id_001.wav
    • stress
      • sx_s_id_000.wav
      • sx_s_id_001.wav

标注文件

  • Task_Proun.xls:包含转录句子、音频ID、语义注释和多音字具体发音
  • Task_Pause.xls:包含转录句子、音频ID和语义注释
  • Task_Stres.xls:包含转录句子、音频ID和语义注释
  • metadata.xls:包含录音志愿者的ID、年龄、性别和地区信息

使用许可

  • 许可证:CC BY-NC-4.0(仅限非商业用途)
  • 获取方式:通过Zenodo获取(https://zenodo.org/records/15609922)

引用格式

bibtex @misc{guo2025debatedatasetdisentanglingtextual, title={DEBATE: A Dataset for Disentangling Textual Ambiguity in Mandarin Through Speech}, author={Haotian Guo and Jing Han and Yongfeng Tu and Shihao Gao and Shengfan Shen and Wulong Xiang and Weihao Gan and Zixing Zhang}, year={2025}, eprint={2506.07502}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.07502}, }

联系方式

  • 反馈邮箱:haotianguo@hnu.edu.cn
搜集汇总
数据集介绍
main_image_url
构建方式
DEBATE数据集的构建过程体现了严谨的多模态语料库设计理念。研究团队首先通过开放语料库、社交媒体和考试题库三个渠道收集原始文本,并采用人工标注与LLM生成相结合的方式,筛选出1001个具有多音字歧义、结构歧义和焦点歧义特征的汉语例句。为确保语音数据的生态效度,10位母语者使用日常录音设备进行采集,并创新性地采用双人协作机制实时监控发音准确性和语义一致性。数据质量控制环节融合了人工抽样评估与自动语音识别技术,最终形成包含10,010条录音(9.66小时)的高质量语料库。
特点
作为首个面向汉语语音消歧的多模态数据集,DEBATE具有三个显著特征:其一,聚焦汉语特有的多音字、无空格分词和声调歧义现象,系统覆盖发音、韵律停顿和重音三类消歧场景;其二,通过10位不同年龄、性别和地域背景的发音人录音,构建了包含同文本多发音变体的平行语料;其三,每个样本均标注原始歧义文本、标准发音标记、韵律边界符号及语义解释,形成四层结构化注释体系。数据集特别呈现1.15-11.8秒的短语音特征,符合自然对话的瞬时决策需求。
使用方法
该数据集支持三种典型应用场景:在语音识别领域,可通过对比同文本不同发音的声学特征改进多音字建模;在语义理解任务中,利用韵律边界标注提升结构歧义句的解析准确率;对于语音合成系统,重音标注数据可用于训练更具表现力的韵律生成模型。基准测试表明,研究者应构建包含音频波形、文本转录和消歧标签的三元组输入,采用对比学习框架区分歧义选项。值得注意的是,当前模型在重音感知任务上表现欠佳,建议后续研究重点优化声学特征的细粒度建模能力。
背景与挑战
背景概述
DEBATE数据集由湖南大学与剑桥大学等机构的研究团队于2025年联合发布,是首个专注于通过语音线索解决汉语文本歧义的多模态数据集。该数据集包含1,001个经过严格筛选的汉语歧义文本,每个文本由10名母语者录制为音频,并标注了通过发音、停顿、重音等声学特征消除歧义后的语义解释。作为汉语语音消歧领域的开创性资源,DEBATE填补了传统文本消歧研究与多模态理解之间的空白,为探索声学特征在语义解析中的作用提供了实证基础,对语音识别、自然语言理解及人机交互等领域具有重要价值。
当前挑战
DEBATE数据集面临的核心挑战体现在两个维度:在领域问题层面,汉语作为分析型语言存在大量同形异音字(如'重zhòng/chóng')、无空格分词歧义(如'地面积')及语调敏感语义(如'想起来了'),要求模型能精准捕捉声学特征与语义的复杂映射关系;在构建过程中,需克服多音字标准化发音标注、跨方言发音差异、自然语句中微观停顿的边界标注,以及声学特征(如音高曲线)与语义焦点对齐等技术难题。实验表明,现有语音大模型在利用韵律特征消歧任务上的准确率(58-68%)仍显著低于人类水平,凸显了声学语义联合建模的瓶颈。
常用场景
经典使用场景
在自然语言处理领域,DEBATE数据集为研究汉语语音消歧提供了重要资源。该数据集通过捕捉发音、停顿和重音等声学特征,为解析汉语文本中的多义性提供了丰富的实验材料。研究者可利用该数据集探索语音信号如何帮助消除书面汉语中的歧义,特别是在多音字、结构歧义和语义焦点歧义等典型场景中。
解决学术问题
DEBATE数据集有效解决了汉语自然语言处理中的关键学术问题,包括多音字消歧、句子结构解析和语义焦点识别。通过提供大量标注的语音-文本对,该数据集为开发能够理解复杂声学特征的模型奠定了基础,填补了汉语语音消歧研究的数据空白,推动了语音与文本多模态融合研究的发展。
衍生相关工作
基于DEBATE数据集,研究者已开展多项衍生工作,包括开发新型语音消歧模型、构建跨语言消歧系统等。该数据集还启发了对大型语音语言模型性能的深入评估,推动了语音理解技术的进步。相关研究不仅限于汉语领域,还为其他语言的语音消歧研究提供了方法论参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作