Tiny QA Benchmark++ (TQB++)

github2025-05-20 更新2025-05-21 收录

下载链接：

https://github.com/vincentkoc/tiny_qa_benchmark_pp

下载链接

链接失效反馈

官方服务：

资源简介：

Tiny QA Benchmark++ (TQB++) 是一个超轻量级的评估套件和Python包，旨在在几秒钟内暴露大型语言模型（LLM）系统中的关键故障。它作为LLM软件单元测试，非常适合快速CI/CD检查、提示工程和现代LLMOps中的持续质量保证。

Tiny QA Benchmark++ (TQB++) is an ultra-lightweight evaluation suite and Python package designed to expose critical failures in large language model (LLM) systems within seconds. It serves as a unit test for LLM software, making it ideal for rapid CI/CD checks, prompt engineering, and continuous quality assurance in modern LLMOps workflows.

创建时间：

2025-05-16

原始信息汇总

Tiny QA Benchmark++ (TQB++) 数据集概述

数据集简介

名称: Tiny QA Benchmark++ (TQB++)
类型: 超轻量级评估数据集和合成生成器
用途: 快速暴露大型语言模型(LLM)关键故障，适用于CI/CD和LLMOps
特点: 包含人工策划的核心数据集和可定制的合成数据集生成工具

核心特性

不可变黄金标准核心:
- 包含52个手工制作的英语问答对(core_en)
- 用于确定性回归测试
合成定制工具包:
- 使用LiteLLM生成定制微基准测试
- 支持任意语言、主题或难度级别
标准化元数据:
- 采用Croissant JSON-LD格式(metadata/)
- 便于发现和自动加载
多语言支持:
- 预构建包支持英语、法语、西班牙语、葡萄牙语、德语、中文、日语、土耳其语、阿拉伯语和俄语

数据集结构

data/:
- core_en/: 原始52项人工策划的英语核心数据集
- packs/: 合成生成的多语言和主题数据集包

获取方式

Python包安装: bash pip install tinyqabenchmarkpp
Hugging Face数据集库加载: python from datasets import load_dataset core_dataset = load_dataset("vincentkoc/tiny_qa_benchmark_pp", name="core_en", split="train")

应用场景

CI/CD管道测试
提示工程和代理开发
评估工具集成
跨语言漂移检测
自适应测试
监控微调动态

许可信息

代码和核心数据集: Apache-2.0许可证
合成数据集包: 自定义"仅评估、非商业、无衍生"许可证
元数据文件: CC0-1.0许可证
论文内容: 单独许可条款

相关资源

论文: arXiv:2505.12058
Hugging Face Hub: datasets/vincentkoc/tiny_qa_benchmark_pp
GitHub仓库: vincentkoc/tiny_qa_benchmark_pp

搜集汇总

数据集介绍

构建方式

Tiny QA Benchmark++ (TQB++) 数据集的构建采用了多阶段混合方法，核心部分由52项人工精心设计的英文问答对组成，确保了数据的准确性和可靠性。在此基础上，通过LiteLLM技术生成了可定制的多语言微基准测试集，支持按需生成不同语言、主题和难度的测试数据。数据集采用Croissant JSON-LD格式进行标准化元数据封装，便于工具和搜索引擎自动加载。

特点

该数据集以其超轻量级特性著称，能够在数秒内暴露大型语言模型的关键失效问题。其核心英文数据集作为不可变的黄金标准，适用于确定性回归测试。多语言预构建包覆盖了包括英语、法语、西班牙语等在内的多种语言，为跨语言漂移检测提供了便利。数据集设计符合LLMOps规范，可轻松集成到CI/CD管道和提示工程工作流中。

使用方法

用户可通过Hugging Face的datasets库直接加载数据集，或使用提供的Python包tinyqabenchmarkpp生成定制化测试集。该工具支持命令行操作，允许用户指定问题数量、语言种类和主题类别等参数。数据集特别适用于CI/CD管道测试、提示工程开发、评估工具集成等多种LLMOps工作场景，为大型语言模型的持续质量保证提供了高效解决方案。

背景与挑战

背景概述

Tiny QA Benchmark++ (TQB++)是由Vincent Koc及其团队于2025年推出的超轻量级评估数据集与合成生成工具，旨在快速暴露大型语言模型(LLM)系统的关键故障。作为LLM软件单元测试的标杆，该数据集特别适用于持续集成/持续交付(CI/CD)流程和LLMOps环境，为现代自然语言处理研究提供了高效的质量保障机制。其核心包含52项手工构建的英语问答对，并支持通过LiteLLM生成多语言定制化微基准测试，显著提升了模型评估的灵活性与覆盖范围。该数据集通过Hugging Face平台开源发布，并配套发表arXiv论文，已成为LLM快速评估领域的重要参考标准。

当前挑战

TQB++着力解决LLM评估领域的两大核心挑战：传统基准测试耗时冗长与多语言覆盖不足的问题。其构建过程面临合成数据质量控制的严峻考验，包括生成问题的语义一致性维护、多语言转换中的文化适配性保障，以及不同难度级别问题的均衡分布。技术实现上需克服LiteLLM接口的稳定性挑战，确保跨语言数据包生成的可靠性，同时保持Croissant JSON-LD元数据格式的标准化输出。这些挑战的解决直接关系到数据集在CI/CD管道中的实际应用效果与学术研究的可重复性。

常用场景

经典使用场景

在自然语言处理领域，Tiny QA Benchmark++ (TQB++) 数据集以其轻量级特性成为评估大型语言模型（LLM）性能的黄金标准。其核心应用场景包括在持续集成和持续部署（CI/CD）流程中快速检测模型退化问题，为开发者提供即时反馈。通过精心设计的52项人工标注英语问答对，该数据集能够高效识别模型在基础推理、事实一致性和逻辑连贯性等方面的缺陷，尤其适合在模型迭代过程中进行回归测试。

解决学术问题

该数据集有效解决了LLM评估领域两个关键学术问题：一是传统评估集体积庞大导致的测试效率低下，二是缺乏针对模型核心能力的细粒度检测工具。通过构建微型但高信息密度的测试样本，研究者能够精准定位模型在跨语言迁移、领域适应性和知识更新等场景中的失败案例。其标准化元数据格式和可扩展的合成框架，为建立轻量化评估范式提供了方法论基础。

衍生相关工作

基于TQB++的核心方法论，学术界已衍生出多个重要研究方向。在数据集层面，研究者开发了面向低资源语言的扩展版本TQB-ML；在评估框架方面，其轻量化思想被Adaptive Testing Toolkit等工具采纳；在理论研究领域，该数据集的故障模式分析催生了关于LLM脆弱性的系统性研究。这些工作共同推动了高效评估技术从学术探索向工业实践的转化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集