TPI-Train and TPI-Bench
收藏github2026-04-18 更新2026-04-23 收录
下载链接:
https://github.com/pleasedpenguin/tpi-va
下载链接
链接失效反馈官方服务:
资源简介:
TPI-Train(88K实例):一个训练语料库,包含说话人感知的硬负样本,旨在强制优先处理中断处理的声学线索。TPI-Bench:一个全面的评估框架,包含TPI-Test(2K)和Janus-Test(2K),用于测量中断处理策略和说话人辨别能力。
TPI-Train (88K instances): A training corpus containing speaker-aware hard negative samples, designed to prioritize acoustic cues for turn interruption handling. TPI-Bench: A comprehensive evaluation framework encompassing TPI-Test (2K) and Janus-Test (2K), which is used to measure turn interruption handling strategies and speaker discrimination capabilities.
创建时间:
2026-04-16
原始信息汇总
数据集概述:TPI-VA (Third-Party Interruption in Voice Assistants)
基本信息
- 数据集名称:TPI-VA (Third-Party Interruption in Voice Assistants)
- 发布状态:ACL 2026
- 主要贡献:引入了一个用于处理语音助手中第三方中断(TPI)的数据集和框架。
- 核心问题:当前的语音语言模型(SLMs)缺乏辨别**第三方中断(TPI)**与主要用户持续对话流的能力,容易导致上下文理解失败。
数据集构成
数据集包含两个主要部分:训练语料库和评估基准。
1. 训练语料库 (TPI-Train)
- 规模:88K 个实例。
- 特点:包含说话人感知的困难负样本,旨在强制模型优先考虑声学线索以处理中断。
- 子集:
train:训练数据。hard_negative:困难负样本数据。
2. 评估基准 (TPI-Bench)
包含两个测试集,用于衡量中断处理策略和说话人辨别能力。
- TPI-Test:2K 个实例,用于评估中断处理策略。
- Janus-Test:2K 个实例,用于评估说话人辨别能力。
数据样本格式
每个数据样本包含以下字段:
| 字段 | 描述 |
|---|---|
unique_id |
唯一样本标识符 |
subset |
数据集子集 (TPI-Train, TPI-Test, 或 Janus-Test) |
taxonomy_top |
顶层中断类别(7种类型) |
taxonomy_sub |
子类别(26种类型) |
taxonomy_timing |
mid_speech 或 post_speech |
user_utterance |
主要说话人的话语文本 |
interference_utterance |
第三方中断的话语文本 |
audio |
合并的音频(24kHz WAV格式) |
中断分类体系
语料库涵盖了7个顶层类别和26个子类别,旨在捕捉第三方中断可能引发的多样化情境。
| 类别 | 子类别 |
|---|---|
| 同意 | 认可、对齐、合理化 |
| 协助 | 回忆协助、详细补充、策略重构、约束提醒、修改 |
| 澄清 | 实体指定、细节确认、约束澄清、目标澄清 |
| 不同意 | 带替代方案的简单纠正、带理由的否决、程序性反对、请求延期 |
| 抢占话轮 | 知识展示、评价性评论、轶事关联 |
| 话题偏离 | 行动无效化、答案抢占、加速执行 |
| 话题改变 | 优先级警报、任务协调、社交互动、自发询问 |
数据获取与使用
- HuggingFace 数据集地址:
pleasedpenguin/tpi-va-corpus - 加载方式: python from datasets import load_dataset ds = load_dataset("pleasedpenguin/tpi-va-corpus")
框架流程
提供了一个四阶段的管道,用于构建自定义的TPI感知数据集和评估模型。
- 可操作/可忽略标注:将每次中断分类为可操作(模型应响应)或可忽略(模型不应响应)。
- 答案策略生成:根据分类结果,使用参考响应策略生成语音助手响应。
- 通过TTS生成困难负样本:通过将双说话人话语重新合成为单说话人语音,构建说话人感知的困难负样本,创建声学上单说话人但语义模糊的音频。
- 评估管道:使用两个基于LLM的指标在TPI-Bench上评估模型响应:
- 响应策略遵循(RSF):模型是否遵循预定义策略(0或1)。
- 整体帮助性(OH):响应的自然性和有用性(1-5分)。
技术支持
- 所有脚本均支持 OpenAI API 和 本地 vLLM 服务器。
- 所有提示都存储在
prompts/目录下的可编辑文本文件中,允许用户自由定制分类标准、响应策略和评估标准。
引用
bibtex @inproceedings{tpi-va-2026, title={Still Between Us? A Dataset and Framework for Third-Party Interruption in Voice Assistants}, author={Dongwook Lee and Eunwoo Song and Che Hyun Lee and Heeseung Kim and Sungroh Yoon}, booktitle={Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (ACL)}, year={2026} }
许可证
本项目采用 Apache License 2.0 许可证。
搜集汇总
数据集介绍

构建方式
在语音助手交互场景中,第三方打断现象对现有口语模型的鲁棒性构成显著挑战。TPI-Train与TPI-Bench数据集的构建采用了系统化的多阶段流程,首先通过精心设计的提示模板对原始对话进行标注,区分可操作与可忽略的打断类型;随后利用文本到语音技术生成说话人感知的困难负样本,通过将双说话人语音合成为单说话人音频,制造声学线索与语义内容之间的歧义性,从而强化模型对声学特征的依赖。整个流程支持基于OpenAI API或本地vLLM服务器的灵活配置,确保了数据生成的可靠性与可扩展性。
使用方法
研究者可通过HuggingFace平台便捷加载数据集的不同子集,并利用配套的框架管道进行定制化数据处理与模型评估。使用流程涵盖四个主要阶段:首先基于可编辑的提示文件对打断样本进行可操作性与可忽略性标注;随后依据标注结果生成符合预设策略的语音助手回应;接着通过文本到语音合成技术构建声学层面的困难负样本;最终利用基于大语言模型的自动化评估指标,包括回应策略遵循度与整体帮助性评分,对模型在TPI-Bench上的表现进行量化分析。整个框架支持本地与云端部署,具备高度的可适配性。
背景与挑战
背景概述
随着语音助手在现实场景中的广泛应用,口语语言模型在应对复杂对话环境时仍面临显著局限,特别是在处理第三方打断方面存在能力缺失。TPI-Train与TPI-Bench数据集由首尔国立大学、延世大学等机构的研究团队于2026年构建,旨在解决语音助手在对话流中识别并响应第三方打断的核心研究问题。该数据集通过引入包含丰富声学与语义线索的语料,推动语音交互系统向更鲁棒、上下文感知的方向演进,对提升人机对话的自然性与可靠性具有重要影响力。
当前挑战
该数据集致力于应对语音助手领域中的第三方打断识别与处理挑战,其核心在于区分主要用户与第三方打断者的语音流,并依据打断内容判断是否采取响应行动。构建过程中的挑战体现在多维度:一是需要设计涵盖七种顶层类别与二十六种子类别的细粒度分类体系,以覆盖多样化的打断场景;二是生成兼具声学一致性与语义模糊性的困难负样本,以强化模型对声学线索的依赖;三是确保评估框架能够准确衡量模型在打断处理策略与说话人判别两方面的性能。
常用场景
经典使用场景
在语音助手与多用户交互的复杂场景中,TPI-Train与TPI-Bench数据集为研究第三方中断识别与处理提供了核心资源。该数据集通过模拟真实对话中的打断行为,如赞同、协助、澄清、异议等七大类情境,使模型能够学习区分主要用户与第三方介入的语音流。经典使用场景集中于训练与评估语音语言模型在多人对话环境下的中断感知能力,确保助手能准确判断是否应对打断做出响应,从而维持对话的连贯性与自然性。
解决学术问题
该数据集有效解决了语音助手在多说话人环境中难以辨识第三方中断的学术难题。传统语音语言模型常将第三方打断误认为主要用户的连续话语,导致上下文断裂与响应失误。TPI数据集通过引入说话人感知的困难负样本与细粒度分类体系,推动了模型在声学线索优先处理与说话人歧视方面的研究,为提升对话系统的鲁棒性与情境理解提供了理论支撑与方法论基础。
实际应用
在实际应用中,TPI数据集可广泛应用于智能家居、车载语音系统及多用户协作平台等场景。例如,在家庭环境中,当语音助手正执行主要用户的指令时,若其他成员突然插入询问或修正,系统需即时识别中断意图并做出合理响应。该数据集通过提供大规模标注语料与评估框架,助力开发能够适应复杂社交互动的语音助手,增强其在真实世界中的实用性与用户体验。
数据集最近研究
最新研究方向
在语音助手与口语语言模型日益普及的背景下,第三方中断处理成为人机交互领域的前沿挑战。TPI-Train与TPI-Bench数据集的推出,标志着研究焦点从传统的单轮对话理解转向复杂多说话人场景下的语境感知与中断管理。该数据集通过构建包含七大类、二十六子类的细粒度中断分类体系,并引入声学线索优先的硬负样本生成机制,为模型训练提供了丰富的监督信号。其配套评估框架TPI-Bench结合了响应策略遵循度与整体帮助性两项指标,推动了语音助手在真实环境中应对突发打断、维持对话连贯性的能力发展。这一工作不仅呼应了智能助理在家庭、车载等多用户场景中面临的实用性问题,也为口语语言模型的鲁棒性研究设立了新的基准,对提升下一代交互系统的自然性与可靠性具有重要影响。
以上内容由遇见数据集搜集并总结生成



