Bamboo

Name: Bamboo
Creator: 南洋理工大学S-Lab
Published: 2022-08-24 09:41:45
License: 暂无描述

arXiv2022-08-24 更新2024-06-21 收录

下载链接：

https://github.com/ZhangYuanhan-AI/Bamboo

下载链接

链接失效反馈

官方服务：

资源简介：

Bamboo数据集是由南洋理工大学S-Lab等多个研究机构合作构建的大型视觉数据集，包含69M图像分类标注和28M对象边界框标注，覆盖119K视觉类别。数据集通过人机协同的主动学习框架进行标注，确保数据的高质量和信息的密集性。Bamboo数据集的构建过程涉及从多个知识库和公开数据集中整合标签系统，并通过自动概念链接策略持续吸收新类别，以适应不断增长的互联网数据。该数据集主要应用于图像分类和对象检测任务，旨在解决大规模、多样化数据集的需求，以推动计算机视觉模型的进一步发展和优化。

The Bamboo dataset is a large-scale visual dataset co-constructed by multiple research institutions including S-Lab at Nanyang Technological University. It contains 69 million image classification annotations and 28 million object bounding box annotations, covering 119,000 visual categories. A human-machine collaborative active learning framework is employed for annotation to ensure high data quality and information density. The construction of the Bamboo dataset involves integrating label systems from multiple knowledge bases and public datasets, and continuously incorporating new categories through automatic concept linking strategies to adapt to the growing volume of Internet data. This dataset is mainly applied to image classification and object detection tasks, with the goal of addressing the demand for large-scale, diverse datasets and promoting the further development and optimization of computer vision models.

提供机构：

南洋理工大学S-Lab

创建时间：

2022-03-15

搜集汇总

数据集介绍

构建方式

在长文本建模能力评估领域，BAMBOO数据集的构建遵循严谨的学术规范。该数据集通过人工标注与自动化处理相结合的方式，从2023年新发布的公开数据源中采集原始文本，涵盖学术论文、政府报告、电视节目脚本和会议记录四大领域。构建过程特别注重避免数据污染问题，所有测试样本均确保未出现在大语言模型的预训练语料中。针对每个任务，研究团队设计了精细的标注方案：在问答任务中要求标注者重新表述问题与选项，在幻觉检测任务中采用基于假设生成的对抗样本构建方法，在文本排序任务中通过打乱原始顺序构建评估样本。数据集最终形成包含150个样本的BAMBOO-4k和BAMBOO-16k两个子集，平均长度分别为3152和7500个标记。

特点

BAMBOO数据集展现出多维度评估的鲜明特色。其核心特征体现在任务设计的全面性，通过问答、幻觉检测、文本排序、语言建模和代码补全五大任务，系统评估大语言模型在知识利用、逻辑推理、语言生成和工具操作等方面的长文本处理能力。数据集采用双长度层级设计，同时提供4k和16k两种上下文窗口的评估场景，使研究者能够深入分析模型在不同长度下的性能变化规律。评估指标的精确性是该数据集的重要优势，所有任务均采用准确率、一致性指数等可自动化计算的度量标准，避免了文本生成任务中常见的评估偏差问题。领域覆盖的广泛性进一步增强了评估结果的普适性，来自不同领域的测试样本确保了评估结论的稳健性。

使用方法

该数据集为大语言模型的长文本建模能力评估提供了标准化测试框架。研究者可通过项目仓库获取完整的评估代码和数据资源，按照预设的提示模板将长文本输入与任务指令组合形成标准化测试样本。评估过程支持零样本设置，用户可直接测试各类大语言模型在五大任务上的表现。数据分析阶段可重点关注模型在不同长度层级下的性能对比，通过BAMBOO-4k与BAMBOO-16k的结果差异分析上下文扩展对模型能力的影响。对于特定任务的深入分析，用户可结合数据集中提供的细粒度评估指标，如幻觉检测任务的精确率与召回率、代码补全任务的通过率等，系统诊断模型在长文本处理中的薄弱环节。该框架还支持扩展研究，用户可基于现有任务设计新的评估方案，或通过调整输入长度探索模型性能的边界条件。

背景与挑战

背景概述

在大型语言模型（LLMs）蓬勃发展的背景下，其处理长文本的能力成为自然语言处理领域的关键瓶颈。为系统评估LLMs的长上下文建模性能，中国人民大学高瓴人工智能学院的研究团队于2024年3月正式发布了BAMBOO基准测试。该数据集旨在解决现有长文本评估基准在数据污染规避、自动评估准确性及多长度层级覆盖等方面的不足，通过整合问答、幻觉检测、文本排序、语言建模与代码补全五大任务，全面检验模型在知识利用、逻辑推理及工具操作等维度的核心能力。BAMBOO的构建标志着长文本评估体系向更严谨、更全面的方向演进，为后续模型优化与理论研究提供了重要的实证基础。

当前挑战

BAMBOO基准测试致力于解决长文本建模领域的两大核心挑战：其一，在领域问题层面，传统评估方法难以精准衡量LLMs对超长文档中细粒度信息关联与全局语义连贯性的综合理解能力，尤其在处理跨段落推理、幻觉识别及非连续语义排序等复杂任务时，模型性能常出现显著衰减；其二，在构建过程中，研究团队需克服数据污染风险，通过采用2023年新发布语料并重构答案表达以隔离预训练数据干扰，同时需设计支持精确自动评估的任务范式，并建立4k与16k双长度层级体系以系统分析上下文窗口扩展对模型性能的边际影响。

常用场景

经典使用场景

在自然语言处理领域，随着大语言模型处理长文本需求的日益增长，BAMBOO数据集应运而生，成为评估模型长上下文建模能力的核心工具。该数据集通过精心设计的问答、幻觉检测、文本排序、语言建模和代码补全五大任务，全面考察模型在知识利用、逻辑推理和工具操作等方面的综合表现。其经典使用场景在于为不同长度级别的长文本处理模型提供标准化、自动化的性能评估平台，尤其适用于比较扩展上下文窗口后模型在短文本与长文本任务上的表现差异，为长文本建模研究提供了可靠的基准测试环境。

解决学术问题

BAMBOO数据集有效解决了长文本评估中数据污染、评估指标不准确以及任务覆盖不全面等关键学术问题。通过采用2023年发布的最新数据源并修改关键信息，显著降低了测试数据与预训练语料的重叠风险。数据集将部分生成式任务转化为多项选择题型，并采用准确率、一致性指数等精确的自动评估指标，提升了评测结果的可靠性。同时，其涵盖的多样化任务和领域能够全面评估模型的语言生成、知识利用和复杂推理能力，为长文本建模研究提供了多维度的分析视角。

衍生相关工作

BAMBOO数据集的发布促进了长文本建模领域的多项相关研究。基于其构建的评估框架，研究者们深入探讨了上下文窗口扩展对模型性能的影响机制，揭示了位置插值等技术在长短文本任务上的双重效应。该数据集启发了对指令位置敏感性的系统研究，推动了关于长文本中注意力分布规律的探索工作。同时，BAMBOO为上下文压缩技术（如检索增强和文本摘要）的效能验证提供了实验基础，促进了这些方法与长文本模型的结合研究。这些衍生工作共同推动了大语言模型长上下文处理技术的理论发展和实践优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集