btzsc-results
收藏Hugging Face2026-03-02 更新2026-03-03 收录
下载链接:
https://huggingface.co/datasets/btzsc/btzsc-results
下载链接
链接失效反馈官方服务:
资源简介:
BTZSC 排行榜结果数据集存储了针对 BTZSC 基准测试的模型提交结果,该基准测试专注于零样本文本分类任务,涵盖交叉编码器、嵌入模型、重排序器和大型语言模型等多种模型类型。数据集包含每个模型评估运行的 JSON 文件、可重复性元数据(如 BTZSC 版本、提交哈希、精度和批处理大小)以及所有 22 个 BTZSC 数据集的完整指标。每个提交遵循版本 1.0 的架构,包括模型信息(如模型 ID、类型、参数数量和修订版本)、评估元数据(如工具版本和运行时数据)、整体结果(如平均宏 F1、准确率、宏精确率和宏召回率)以及按任务和数据集分类的详细指标块。该数据集适用于零样本文本分类模型的评估和比较研究。
BTZSC Leaderboard Results Dataset stores model submission results for the BTZSC benchmark, which focuses on zero-shot text classification tasks and covers various model types including cross-encoders, embedding models, re-rankers, and large language models. The dataset includes JSON files for each model evaluation run, reproducibility metadata (e.g., BTZSC version, submission hash, precision, and batch size), and complete metrics across all 22 BTZSC datasets. Each submission follows the schema of version 1.0, which includes model information (e.g., model ID, type, number of parameters, and revision), evaluation metadata (e.g., tool version and runtime data), overall results (e.g., average macro F1, accuracy, macro precision, and macro recall), and detailed metric blocks categorized by task and dataset. This dataset is suitable for evaluation and comparative studies of zero-shot text classification models.
创建时间:
2026-03-02
原始信息汇总
BTZSC Results 数据集概述
数据集基本信息
- 数据集名称:BTZSC Leaderboard Results
- 许可协议:Apache-2.0
- 标签:leaderboard, text-classification, zero-shot, evaluation
- 主要语言:英语 (en)
数据集内容与目的
该数据集存储了 BTZSC 排行榜的模型提交结果。BTZSC 是一个用于评估跨编码器、嵌入模型、重排序器和大型语言模型的零样本文本分类任务的基准。
相关资源链接
- 论文地址:https://openreview.net/pdf?id=IxMryAz2p3
- 评估工具库:https://github.com/btzsc/btzsc
- 排行榜空间:https://huggingface.co/spaces/btzsc/btzsc-leaderboard
数据集文件构成
- 每个模型的评估运行结果存储为一个独立的 JSON 文件,路径格式为
results/<model_type>/<model-name>.json。 - 包含可复现性元数据(BTZSC 版本、提交哈希、精度、批处理大小)。
- 包含全部 22 个 BTZSC 数据集的完整逐数据集指标。
数据模式 (Schema)
每个提交结果遵循模式版本 1.0,包含以下部分:
model:模型标识符、类型、参数量、修订版本。evaluation:评估工具版本和运行时元数据。results.overall:平均宏观 F1 分数、准确率、宏观精确率、宏观召回率。results.by_task:情感/主题/意图/情绪分类任务的聚合结果。results.by_dataset:每个数据集的详细指标块(基于真实标签)。
贡献结果
贡献结果的具体说明请参见 SUBMISSION.md 文件。通过拉取请求 (PR) 添加的结果文件将通过 validate.py 在持续集成 (CI) 中进行验证。
搜集汇总
数据集介绍
构建方式
在零样本文本分类领域,BTZSC数据集的构建遵循严格的零样本协议,确保模型在评估过程中未接触任何BTZSC标签的训练或调优。该数据集整合了22个英文单标签数据集,涵盖情感、主题、意图和情感四大任务家族,通过统一的评估框架生成每个模型运行的JSON文件,包含完整的每数据集指标和可复现性元数据,如BTZSC版本、提交哈希、精度和批处理大小,从而为跨模型比较提供了标准化基础。
特点
BTZSC数据集的核心特点在于其作为零样本文本分类基准的综合性,它不仅覆盖了多个自然语言处理任务家族,还采用了宏观F1作为主要评估指标,确保了评价的全面性和一致性。数据集的结构化设计允许存储详细的模型提交结果,包括整体性能、按任务聚合和按数据集分解的指标块,这种分层组织方式便于研究者深入分析模型在不同场景下的表现,同时支持通过严格的验证流程来维护数据质量。
使用方法
使用BTZSC数据集时,研究者需通过官方评估工具运行模型,生成符合特定模式的JSON输出文件,并按照预定义路径结构提交至结果仓库。提交过程包括本地验证以确保数据格式正确,随后可通过Hugging Face的Web界面、Git工作流或API工作流进行发布,所有新增结果文件都会在持续集成中通过验证脚本进行审核,从而保证数据的一致性和可追溯性,为模型性能的透明比较和社区贡献提供了便捷的渠道。
背景与挑战
背景概述
在自然语言处理领域,零样本文本分类旨在使模型无需特定任务标注数据即可泛化至新类别,是评估模型泛化能力的关键任务。BTZSC基准由研究人员于2024年提出,其核心研究问题聚焦于系统比较跨架构模型——包括交叉编码器、嵌入模型、重排序器及大语言模型——在零样本设置下的分类性能。该基准整合了22个英文单标签数据集,涵盖情感、主题、意图和情感四个任务家族,采用严格的零样本协议,以宏平均F1作为主要评估指标,为模型泛化研究提供了标准化、可复现的评估框架,推动了零样本学习领域的实证进展。
当前挑战
BTZSC基准所应对的领域挑战在于零样本文本分类中模型泛化能力的系统性评测,现有研究常局限于单一模型类型或小规模数据集,缺乏跨架构、多任务的统一比较。构建过程中的挑战涉及数据集的精选与平衡,需确保22个数据集覆盖多样领域与任务家族,同时维持严格的零样本协议以避免数据泄露。此外,基准的实施需设计可扩展的评估流程,整合不同模型类型的推理接口,并保证结果的可复现性与元数据完整性,这对基准的长期维护与社区贡献提出了技术要求。
常用场景
经典使用场景
在自然语言处理领域,零样本文本分类作为一项前沿任务,旨在评估模型在未见过类别标签的情况下进行泛化推理的能力。BTZSC数据集通过整合22个英文单标签数据集,覆盖情感、主题、意图和情感四大任务家族,为研究者提供了一个标准化的基准测试平台。其经典使用场景在于系统性地比较跨编码器、嵌入模型、重排序器和大型语言模型在零样本设置下的性能表现,推动模型泛化能力的深入探索。
解决学术问题
BTZSC数据集致力于解决零样本文本分类中模型评估标准不一、基准缺失的核心学术问题。通过严格的零样本协议禁止针对BTZSC标签进行训练或调优,确保了评估的公平性与可比性。该数据集以宏观F1作为主要指标,量化模型在未见类别上的分类准确性,为理解模型跨任务泛化机制提供了实证基础,促进了零样本学习理论的发展与模型创新。
衍生相关工作
围绕BTZSC数据集,已衍生出一系列经典研究工作,包括基于该基准的模型架构优化、零样本迁移学习策略探索以及评估指标改进。例如,研究者利用BTZSC对比了不同预训练范式在跨任务泛化中的效能,并提出了针对嵌入模型与大型语言模型的适配技术。这些工作不仅深化了对零样本分类机制的理解,还推动了如提示工程、元学习等方向在文本分类领域的应用与发展。
以上内容由遇见数据集搜集并总结生成



