five

booydar/babilong

收藏
Hugging Face2024-05-21 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/booydar/babilong
下载链接
链接失效反馈
官方服务:
资源简介:
BABILong是一个用于评估NLP模型处理长文档能力的生成式基准测试。它包含10个配置,每个配置对应一个bAbI任务,并且每个配置有不同的序列长度分割(如4k、32k、128k等)。数据集结合了bAbI任务和PG19背景文本,生成长度可能达到数百万个token的测试样本。BABILong的任务设计用于评估基本推理能力,包括单支持事实、多支持事实、关系推理、计数、列表集合、简单否定和不确定知识等任务。

BABILong是一个用于评估NLP模型处理长文档能力的生成式基准测试。它包含10个配置,每个配置对应一个bAbI任务,并且每个配置有不同的序列长度分割(如4k、32k、128k等)。数据集结合了bAbI任务和PG19背景文本,生成长度可能达到数百万个token的测试样本。BABILong的任务设计用于评估基本推理能力,包括单支持事实、多支持事实、关系推理、计数、列表集合、简单否定和不确定知识等任务。
提供机构:
booydar
原始信息汇总

数据集概述

数据集名称: BABILong

数据集描述: BABILong是一个用于评估NLP模型处理长文档中分布式事实的性能的生成基准。该数据集包含10个配置,每个配置对应一个bAbI任务,并具有不同的序列长度分割,如4k, 32k, 128k, 256k, 512k, 1M等。

数据集结构:

  • 配置数量: 10
  • 每个配置的分割: 10
  • 文件格式: JSON

数据集内容:

  • 任务类型: 包括基本推理方面的10个任务,如单支持事实、双支持事实、三支持事实等。
  • 数据来源: 使用bAbI数据集作为事实,PG19数据集作为背景文本。

数据集文件: 每个配置包含10个数据文件,对应不同的分割,例如:

  • config_name: 0k
    • split: qa1
      • path: data/qa1/0k.json
    • split: qa2
      • path: data/qa2/0k.json
    • ...
  • config_name: 1k
    • split: qa1
      • path: data/qa1/1k.json
    • split: qa2
      • path: data/qa2/1k.json
    • ...
  • ...
  • config_name: 1M
    • split: qa1
      • path: data/qa1/1M.json
    • split: qa2
      • path: data/qa2/1M.json
    • ...

数据集用途: 用于评估和推动NLP模型在处理长文档和区分重要信息与大量无关细节方面的能力。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作