LongBench|长文本理解数据集|多任务学习数据集
收藏数据集概述
数据集名称
LongBench
数据集描述
LongBench 是一个用于评估大型语言模型在长上下文理解能力方面的双语、多任务基准。它包括中文和英文两种语言,涵盖了单文档问答、多文档问答、摘要、小样本学习、合成任务和代码完成等六大类别的二十一个不同任务。
数据集组成
- 任务类型:
- 多文档问答:3个英文任务,1个中文任务
- 单文档问答:3个英文任务,1个中文任务
- 摘要:3个英文任务,1个中文任务
- 小样本学习:3个英文任务,1个中文任务
- 合成任务:2个英文任务,1个中文任务
- 代码完成:2个代码任务
数据集规模
- 共包含14个英文任务,5个中文任务,2个代码任务。
- 平均任务长度范围从5k到15k。
- 总共包含4,750个测试数据。
数据集特点
- 采用全自动评估方法,以最低成本测量和评估模型的长上下文理解能力。
- 提供了LongBench-E,一个通过均匀采样构建的测试集,具有在0-4k、4k-8k和8k+长度区间内可比的数据量,用于分析模型在不同输入长度下的性能变化。
数据格式
所有数据遵循以下标准格式: json { "input": "任务的输入/命令,通常较短,如问答中的问题,小样本任务中的查询等", "context": "任务所需的长上下文,如文档、跨文件代码、小样本任务中的小样本示例", "answers": "所有正确答案的列表", "length": "前三项的总长度(中文按字符计,英文按单词计)", "dataset": "该数据所属的数据集名称", "language": "该数据的语言", "all_classes": "分类任务中的所有类别,非分类任务为null", "_id": "每条数据的随机id" }
评估方法
- 通过Hugging Face datasets库下载和加载数据。
- 使用
pred.py
进行模型推理,并使用eval.py
进行评估。 - 提供了基于检索和摘要的长上下文压缩评估代码。
评估结果
- 提供了在Zero-shot场景下,不同模型在主要任务类别上的平均得分。
- 提供了在不同数据集上的详细评估结果。
更新记录
- 2024/02/01:发布了LongBench-Chat,首个真实世界长上下文评估基准(10k-100k输入长度)。
- 2023/10/30:发布了新的ChatGLM3-6B-32k聊天模型,擅长长文档问答、推理和摘要。
- 2023/08/29:发布了LongBench论文,并更新了数据集,增加了MultiNews和SAMSum任务,调整了数据长度分布,公开了所有评估代码。
引用
@article{bai2023longbench, title={LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding}, author={Bai, Yushi and Lv, Xin and Zhang, Jiajie and Lyu, Hongchang and Tang, Jiankai and Huang, Zhidian and Du, Zhengxiao and Liu, Xiao and Zeng, Aohan and Hou, Lei and Dong, Yuxiao and Tang, Jie and Li, Juanzi}, journal={arXiv preprint arXiv:2308.14508}, year={2023} }

- 1LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding清华大学 中国科学院自动化研究所 · 2023年
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
MedChain
MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。
arXiv 收录
China Air Quality Historical Data
该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。
www.cnemc.cn 收录