LAT-Chronicle, LAT-Bench

github2026-04-27 更新2026-04-29 收录

下载链接：

https://github.com/alanshaoTT/LAT-Audio-Repo

下载链接

链接失效反馈

官方服务：

资源简介：

LAT-Chronicle是一个1.2k小时的长音频数据集（1k小时中文/200小时英文），包含六个真实场景的细粒度时间标注。LAT-Bench是一个人类验证的长音频时间推理基准，涵盖三个核心任务：密集音频描述（DAC）、时间音频定位（TAG）和目标音频描述（TAC）。

LAT-Chronicle is a 1.2 thousand-hour long audio dataset (1,000 hours in Chinese and 200 hours in English), which contains fine-grained temporal annotations across six real-world scenarios. LAT-Bench is a human-validated long-form audio temporal reasoning benchmark covering three core tasks: Dense Audio Captioning (DAC), Temporal Audio Grounding (TAG), and Target Audio Captioning (TAC).

创建时间：

2026-04-22

原始信息汇总

数据集概述：LAT-Audio

项目名称：Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding（LAT-Audio）

核心目标：解决大型音频语言模型（LALM）在处理长时间音频时出现的时间幻觉和时间戳漂移问题，实现精确的时间感知能力。

提出框架：一种由全局到局部的推理框架（LAT-Audio），包含：

全局时间线：用于结构化时间理解。
Think-With-Audio Chain-of-Thought（TWA-CoT）：迭代推理机制。
工具增强机制：检索局部音频证据。

推理流程：渐进式全局到局部推理范式：

构建全局时间线，作为时间-语义锚点。
通过 TWA-CoT 进行多步推理。
通过工具调用迭代检索音频证据。

发布的数据集与基准

本项目发布了两个关键资源：

1. LAT-Chronicle（数据集）

规模：1200 小时（1000 小时中文 / 200 小时英文）。
内容：涵盖六大真实场景的长时间音频，并包含细粒度的时间标注。
标注方式：采用人工参与的流水线，进行多轨道原子标注（语音、声音事件、音乐、环境），实现精确的时间监督。

2. LAT-Bench（基准测试）

特点：首个经人工验证的长时间音频时间感知基准。
音频时长：支持最长 30 分钟的音频。
任务覆盖：三个核心任务
- 密集音频描述（DAC，Dense Audio Captioning）
- 时间音频定位（TAG，Temporal Audio Grounding）
- 目标音频描述（TAC，Targeted Audio Captioning）
验证：所有标注经过人工仔细校验，确保时间精度和一致性，场景包括对话、视频博客等复杂声学环境。

发布模型

模型	推理能力	训练数据	描述
LAT-Audio	是	LAT-Chronicle	工具增强的多步推理模型，采用全局到局部的时间推断
LAT-Audio-Base	否	LAT-Chronicle + 内部数据	基于 Qwen3-Omni 微调的基线模型，推理更快更简单

下载链接

数据集：
- LAT-Chronicle：https://huggingface.co/datasets/mcshao/LAT-Chronicle
- LAT-Bench：https://huggingface.co/datasets/mcshao/LAT-Bench
模型：
- LAT-Audio：https://huggingface.co/mcshao/LAT-Audio
- LAT-Audio-Base：https://huggingface.co/mcshao/LAT-Audio-Base

搜集汇总

数据集介绍

构建方式

在长音频理解领域，现有的大规模音频语言模型在处理短时音频时表现优异，但面对长达数十分钟的复杂音频时，常因时间感知模糊而产生时间幻觉与时间戳漂移问题。为突破这一瓶颈，研究者构建了LAT-Chronicle数据集，它是一座规模达1200小时的超长音频数据宝库，涵盖中文1000小时与英文200小时，涉及对话、视频博客及复杂声学环境等六大真实场景。该数据集的构建采用人工在环的流水线式流程，通过多轨原子标注技术，对语音、声音事件、音乐及环境声进行细粒度时间戳标记，从而为模型提供精准的时序监督信号，为长音频的时间理解奠定坚实基础。

使用方法

使用LAT-Chronicle与LAT-Bench时，研究者可借助LAT-Audio框架进行高效推理与评估。首先通过LAT-Audio模型执行渐进式全局到局部的推理：构建全局时间线作为语义锚点，利用思考-音频链式思维进行多步推理，并借助工具增强机制迭代检索局部音频证据。推理过程通过简洁的命令行接口完成，例如使用lat-audio-infer.py脚本指定检查点路径与任务类型。随后，调用专为密集音频描述、目标音频描述及时序定位设计的评估脚本，输入预测结果与基准标签，即可自动计算多项指标，全面衡量模型在长音频时序理解上的表现。

背景与挑战

背景概述

长音频理解是音频语言模型领域的重要前沿，现有大型音频语言模型在短时音频上表现优异，却难以应对长时音频中时间幻觉与时间戳漂移的严峻挑战。为攻克此难题，西北工业大学音频、语音与语言处理研究组（ASLP@NPU）的邵明辰、苏航、田文杰等研究人员于2026年提出LAT-Chronicle与LAT-Bench数据集。LAT-Chronicle是一个包含1200小时长音频的精细时序标注数据集，涵盖中文与英文六类真实场景；LAT-Bench则是首个经人工验证的长时音频时序基准，支持长达30分钟的音频评估。二者为长时音频理解中的精确时序感知研究提供了关键数据支撑，在密集音频描述、时序音频定位与定向音频描述三大核心任务上树立了新标杆。

当前挑战

该数据集面临的挑战首先体现在领域问题层面：长时音频理解需克服时域跨度过大带来的时间语义失真，现有模型在长达数十分钟的音频中难以维持稳定的时间戳对齐与事件定位，导致时序推理准确性严重下降。其次，构建过程中的挑战尤为突出：LAT-Chronicle需对多轨道原子标注（语音、声事件、音乐与环境声）进行精细整合，确保不同声源在长时域上的时序一致性；LAT-Bench的标注则依赖人工逐段验证，以排除自动化标注中的误差累积，并保证覆盖对话、vlog及复杂声学环境等多样化场景的高保真度。此外，长音频的存储与计算开销也为数据集的规模化构建与基准评测带来了效率瓶颈。

常用场景

经典使用场景

在长篇幅音频理解这一前沿领域中，LAT-Chronicle与LAT-Bench构成了不可或缺的双生资源。LAT-Chronicle凭借其涵盖中文与英文、总计超过1200小时的高质量音频数据，以及基于多轨原子级标注（涵盖语音、声音事件、音乐与环境四大维度）所提供的精细时间监督信号，为研究者构建了一种前所未有的、具备结构化时间感知能力的音频理解基准。该数据集的经典使用场景在于支撑密集音频描述、时间音频定位与目标音频描述三大核心任务的训练与评估，使模型能够在长达30分钟的复杂音频环境中进行精确的语义时间对齐与推理，从而克服传统模型在面对长篇幅音频时普遍存在的语义漂移与时间错位问题。

解决学术问题

LAT-Chronicle与LAT-Bench的提出系统性地回应了大规模音频语言模型在处理长时音频时面临的核心困境——即时间幻觉与时间戳偏移。过去，由于缺乏带有精细时间标注的大规模长音频数据集，学界对长时间音频理解的研究多停留在短片段、短时长的理想化场景，难以触及真实世界中如对话、视频博客与复杂声学环境等长时间跨度的复杂应用。这两个数据集通过引入人类验证的基准和全局-局部推理框架，首次在大规模数据层面实现了对时间语义信息的精准建模，使得模型能够对持续数十分钟的音频内容进行结构化的时间推理与上下文整合。这一突破不仅填补了长时音频理解领域的评价体系空白，也推动了多模态时间感知推理的理论与方法论进步。

实际应用

在实际应用层面，LAT-Chronicle与LAT-Bench所驱动的音频理解技术展现出了广泛的部署潜力。以智能语音助手为例，当用户需要从一段长达半小时的会议记录中精准定位某个具体发言时，基于该数据集训练的模型能够通过全局时间线与迭代推理机制快速定位目标音频片段，极大提升交互效率。在内容创作与媒体分析领域，针对视频博客、直播录播或播客等长篇幅音视频素材，该数据集支撑的系统可自动生成具有时间戳的密集音频描述，辅助内容检索与摘要生成。此外，在智能监控与安防场景中，长音频中的异常声音事件（如玻璃破碎、警报声）的准确时间定位能力，为实时告警与回溯分析提供了坚实的技术基石。

数据集最近研究