LiveLongBench
收藏LiveLongBench 数据集概述
数据集简介
LiveLongBench 是首个基于直播场景的语音长文本数据集,旨在解决自然语言处理中长文本理解的挑战。该数据集特别针对具有高冗余性和对话特点的真实场景文本设计。
核心特点
- 数据来源:直播场景的语音转文本
- 主要挑战:处理高冗余、信息密度不均的对话文本
- 应用场景:电子商务和直播等实际应用
任务类型
- 检索依赖型任务
- 推理依赖型任务
- 混合型任务
数据集结构
LiveLongBench/ ├── data/ # 数据集文件及预处理脚本 ├── data/results/ # 基准测试结果和评估输出 ├── scripts/ # 模型评估脚本 ├── src/ # 模型实现和任务评估源代码 ├── eval/ # "大海捞针"实验代码和资源 ├── pipeline_passkey/ # "大海捞针"任务实验流程
获取方式
- 小样本数据:包含在代码库的
data/livedata/目录 - 完整数据集:需通过 Google Drive 申请访问
申请链接:https://drive.google.com/drive/folders/1aWDSOwfeVCNnUqP0ZLo0vsC5soCAlssN?usp=drive_link
相关论文
-
标题:LiveLongBench: Tackling Long-Context Understanding for Spoken Texts from Live Streams
-
arXiv:https://arxiv.org/abs/2504.17366
-
引用格式:
@misc{wu2025livelongbench, title={LiveLongBench: Tackling Long-Context Understanding for Spoken Texts from Live Streams}, author={Yongxuan Wu and Runyu Chen and Peiyu Liu and Hongjin Qian}, year={2025}, eprint={2504.17366}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.17366}, }




