booydar/babilong
收藏Hugging Face2024-05-21 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/booydar/babilong
下载链接
链接失效反馈官方服务:
资源简介:
BABILong是一个用于评估NLP模型处理长文档能力的生成式基准测试。它包含10个配置,每个配置对应一个bAbI任务,并且每个配置有不同的序列长度分割(如4k、32k、128k等)。数据集结合了bAbI任务和PG19背景文本,生成长度可能达到数百万个token的测试样本。BABILong的任务设计用于评估基本推理能力,包括单支持事实、多支持事实、关系推理、计数、列表集合、简单否定和不确定知识等任务。
BABILong是一个用于评估NLP模型处理长文档能力的生成式基准测试。它包含10个配置,每个配置对应一个bAbI任务,并且每个配置有不同的序列长度分割(如4k、32k、128k等)。数据集结合了bAbI任务和PG19背景文本,生成长度可能达到数百万个token的测试样本。BABILong的任务设计用于评估基本推理能力,包括单支持事实、多支持事实、关系推理、计数、列表集合、简单否定和不确定知识等任务。
提供机构:
booydar
原始信息汇总
数据集概述
数据集名称: BABILong
数据集描述: BABILong是一个用于评估NLP模型处理长文档中分布式事实的性能的生成基准。该数据集包含10个配置,每个配置对应一个bAbI任务,并具有不同的序列长度分割,如4k, 32k, 128k, 256k, 512k, 1M等。
数据集结构:
- 配置数量: 10
- 每个配置的分割: 10
- 文件格式: JSON
数据集内容:
- 任务类型: 包括基本推理方面的10个任务,如单支持事实、双支持事实、三支持事实等。
- 数据来源: 使用bAbI数据集作为事实,PG19数据集作为背景文本。
数据集文件: 每个配置包含10个数据文件,对应不同的分割,例如:
config_name: 0ksplit: qa1path: data/qa1/0k.json
split: qa2path: data/qa2/0k.json
- ...
config_name: 1ksplit: qa1path: data/qa1/1k.json
split: qa2path: data/qa2/1k.json
- ...
- ...
config_name: 1Msplit: qa1path: data/qa1/1M.json
split: qa2path: data/qa2/1M.json
- ...
数据集用途: 用于评估和推动NLP模型在处理长文档和区分重要信息与大量无关细节方面的能力。



