LiveLongBench

github2025-04-25 更新2025-04-27 收录

下载链接：

https://github.com/Yarayx/livelongbench

下载链接

链接失效反馈

官方服务：

资源简介：

LiveLongBench是第一个源自直播的口语长文本数据集，旨在反映现实场景中冗余丰富和对话性质的特点。该基准测试包含三个主要类别的任务：检索依赖任务、推理依赖任务和混合任务。

LiveLongBench is the first spoken long-text dataset derived from live streaming, which aims to reflect the characteristics of rich redundancy and conversational nature in real-world scenarios. This benchmark includes three main categories of tasks: retrieval-dependent tasks, reasoning-dependent tasks and hybrid tasks.

创建时间：

2025-04-06

原始信息汇总

LiveLongBench 数据集概述

数据集简介

LiveLongBench 是首个基于直播场景的语音长文本数据集，旨在解决自然语言处理中长文本理解的挑战。该数据集特别针对具有高冗余性和对话特点的真实场景文本设计。

核心特点

数据来源：直播场景的语音转文本
主要挑战：处理高冗余、信息密度不均的对话文本
应用场景：电子商务和直播等实际应用

任务类型

检索依赖型任务
推理依赖型任务
混合型任务

数据集结构

LiveLongBench/ ├── data/ # 数据集文件及预处理脚本 ├── data/results/ # 基准测试结果和评估输出 ├── scripts/ # 模型评估脚本 ├── src/ # 模型实现和任务评估源代码 ├── eval/ # "大海捞针"实验代码和资源 ├── pipeline_passkey/ # "大海捞针"任务实验流程

获取方式

小样本数据：包含在代码库的 data/livedata/ 目录
完整数据集：需通过 Google Drive 申请访问
申请链接：https://drive.google.com/drive/folders/1aWDSOwfeVCNnUqP0ZLo0vsC5soCAlssN?usp=drive_link

相关论文

标题：LiveLongBench: Tackling Long-Context Understanding for Spoken Texts from Live Streams
arXiv：https://arxiv.org/abs/2504.17366
引用格式：

@misc{wu2025livelongbench, title={LiveLongBench: Tackling Long-Context Understanding for Spoken Texts from Live Streams}, author={Yongxuan Wu and Runyu Chen and Peiyu Liu and Hongjin Qian}, year={2025}, eprint={2504.17366}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.17366}, }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，长文本理解一直是极具挑战性的研究方向，尤其针对直播场景中具有高冗余度和非均匀信息密度的口语化文本。LiveLongBench通过系统采集真实直播场景中的语音转写文本，构建了首个面向直播口语的长文本数据集。该数据集采用多阶段构建方法：首先从电商直播平台获取原始语音数据，经过专业转写和脱敏处理；随后由语言学专家根据口语特征进行文本清洗和标注；最终构建包含检索依赖型、推理依赖型和混合型三大类任务的评测基准，全面覆盖实际应用场景中的需求。

使用方法

使用LiveLongBench进行模型评估需遵循标准化流程。研究者首先需克隆项目仓库并配置Python虚拟环境，安装指定依赖项。评估支持本地部署模型和API调用两种方式：对于LLaMA等本地模型，通过修改eval_llama31_full.sh脚本中的参数进行评测；对于GPT-4等云端API模型，需在配置文件gpt4o.yaml中设置访问密钥后执行eval_gpt4o.sh脚本。数据集采用分级访问机制，演示样本随仓库公开，完整数据集需通过Google Drive申请获取。评估结果将自动保存在data/results目录下，包含各任务类型的详细性能指标，便于进行横向对比分析。

背景与挑战

背景概述

LiveLongBench数据集由Yongxuan Wu等人于2025年提出，旨在解决自然语言处理领域中长期上下文理解的核心问题，特别是在实时流媒体场景下的口语文本分析。该数据集由知名学术机构发布，并已在arXiv预印本平台公开相关论文。作为首个源自直播场景的口语长文本数据集，LiveLongBench突破了传统文本数据集的局限，重点关注具有高冗余度、信息密度不均等特征的现实对话场景。该数据集的建立显著推动了电子商务和直播领域的长文本理解研究，为评估大语言模型在真实场景中的应用性能提供了重要基准。

当前挑战

LiveLongBench主要应对两大挑战：在领域问题层面，现有基准测试难以捕捉口语文本的冗余性和对话特性，导致大语言模型在真实场景中的表现评估存在偏差；在构建过程层面，数据集采集需处理直播流媒体的非结构化语音转换、信息密度标注等难题。具体挑战包括：如何准确标注高度冗余的对话内容，设计反映真实场景的混合型任务（检索依赖型与推理依赖型任务相结合），以及建立适用于口语长文本的评估指标体系。这些挑战使得现有模型在该数据集上的表现普遍不佳，凸显了开发专用算法的必要性。

常用场景

经典使用场景

在自然语言处理领域，LiveLongBench数据集为研究长文本理解提供了独特场景，特别是针对直播场景中的口语化文本。其经典使用场景包括评估大型语言模型在处理高冗余、信息密度不均的对话文本时的表现，尤其在检索依赖型任务、推理依赖型任务及混合任务中的性能测试。通过模拟真实直播环境中的语言特征，该数据集为模型优化提供了贴近实际的测试平台。

解决学术问题

LiveLongBench有效解决了传统长文本基准测试中口语特征缺失的学术难题。通过引入包含语音转写文本、非结构化对话和动态话题切换的真实数据，该数据集填补了现有基准在冗余文本处理、口语化表达解析方面的空白。其多任务设计为研究界提供了衡量模型在复杂语境下语义连贯性、关键信息提取能力的标准化工具，推动了对话系统与长文本理解技术的理论突破。

实际应用

该数据集在电商直播分析、实时字幕生成等场景展现显著价值。通过捕捉真实直播中的语言模式，训练模型可精准识别用户意图、提取商品关键信息，提升智能客服响应效率。在内容审核领域，其冗余文本处理能力有助于检测违规内容，而混合任务设计则为构建多模态直播分析系统提供了数据支撑，大幅降低人工标注成本。

数据集最近研究