ICBCBench

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/ICBCBench/ICBCBench

下载链接

链接失效反馈

官方服务：

资源简介：

ICBCBench 是一个旨在评估下一代大型语言模型（LLMs）的基准数据集，这些模型因添加工具、高效提示、搜索访问等而具有增强能力。数据集包含120个问题，涵盖金融和政治领域，问题具有明确且无歧义的答案。数据集支持中文和英文，包含40个主观问题和80个客观问题，主要为文本形式，也有少量多模态示例。数据集分为公开验证集和带有私有答案及元数据的测试集。数据文件包括80个客观问题的JSON文件和40个主观报告问题的JSONL文件。

ICBCBench is a benchmark dataset designed to evaluate the next generation of large language models (LLMs) with enhanced capabilities due to the addition of tools, efficient prompts, search access, etc. The dataset contains 120 questions covering the financial and political domains, with clear and unambiguous answers. The dataset supports both Chinese and English, including 40 subjective questions and 80 objective questions, primarily in text form with a few multimodal examples. The dataset is divided into a public validation set and a test set with private answers and metadata. Data files include JSON files for 80 objective questions and JSONL files for 40 subjective report questions.

创建时间：

2026-04-26

搜集汇总

数据集介绍

构建方式

ICBCBench数据集通过精心设计的两类问题架构而成，涵盖客观题与主观题两大类别。客观题部分包含80道问题，存储于objective_questions_public_80.json文件中，主观题部分则包含40道报告型问题，存储于subjective_report_questions_public_40.jsonl文件中。全部120道题目均具有明确且无歧义的答案，覆盖金融与政治等主要领域，并兼顾中文与英文双语场景。数据集被划分为公开验证集和私有测试集，其中测试集隐藏答案与元数据，以保障评估的公正性。

特点

该数据集的核心特点在于其面向下一代大语言模型的评估能力，特别是那些具备工具调用、高效提示工程、搜索引擎接入等增强能力的模型。数据集以金融与政治为主导主题，问题以文本形式为主，同时包含少量多模态样例，从而在知识深度与模态多样性之间取得平衡。此外，同时涵盖主观与客观问题类型，使得数据集不仅能够检验模型的精准推理能力，还能评估其长文本生成与综合分析水平。

使用方法

ICBCBench数据集的使用需通过两个配置加载，即'subjective'与'objective'，分别对应主观报告问题和客观选择题。用户可利用Hugging Face的datasets库直接加载，示例代码为load_dataset('anon-repo Bench', 'subjective')与load_dataset('anon-repo Bench', 'objective')。在评估过程中，建议使用提供的eval代码目录anonymous_anon_repoBench_eval进行标准化评测，将模型输出与私有答案进行对比，从而客观衡量模型在金融政治等专业领域内的综合表现。

背景与挑战

背景概述

ICBCBench（原anon-repo Bench）是一个专为评估下一代大语言模型（LLM）能力而设计的基准数据集，于近期由匿名研究团队构建并发布。该数据集聚焦于金融与政治领域，包含120道具有清晰且唯一答案的问题，涵盖中文与英文两种语言，分为40道主观题与80道客观题。其核心研究问题在于检验融合了工具调用、高效提示工程及网络搜索等增强能力的LLM在复杂、高信息密度场景中的表现。ICBCBench通过引入多模态样例（尽管以文本为主）和私有测试集，为模型在专业领域的深度推理与长文本生成能力提供了标准化评估框架，填补了当前缺乏针对增强型LLM在金融政治等高风险领域评测的空白，对推动LLM实用化与落地具有重要意义。

当前挑战

ICBCBench所应对的领域挑战在于，现有基准如RACE等主要评测基础语言理解或简单推理，难以覆盖金融与政治领域中对实时信息检索、多步逻辑论证及事实准确性的苛刻要求；同时，增强型LLM因具备动态工具调用能力，其评估需兼顾过程与结果的双重标准。数据集构建过程中，挑战体现在：设计问题须确保答案唯一且无歧义，以避免主观评判偏差；跨语言（中英）问题需兼顾文化语境差异；以及主观题（如报告生成）的评分标准难以客观化，需依赖人工与自动化结合的复杂评估流程。此外，公开验证集与私有测试集的划分也增加了防止数据泄露和过拟合的难度。

常用场景

经典使用场景

ICBCBench作为专为评估下一代大语言模型而设计的基准测试集，其核心使用场景聚焦于衡量具备工具增强、高效提示工程及搜索访问等拓展能力的语言模型的表现。该数据集精心构建了120道涵盖金融与政治领域的高质量题目，横跨中英双语，并包含40道主观题与80道客观题，旨在全面检验模型在复杂现实议题上的深度推理与长文本生成能力。研究者在对比不同模型架构与训练策略时，常借助ICBCBench的公开验证集与带私有答案的测试集进行标准化评测，从而获得可靠的能力基准。

实际应用

在实际应用中，ICBCBench为金融科技、政策分析及智能研究助手等前沿领域提供了关键的性能验证工具。金融机构可借助该基准筛选具备精准财务分析、市场趋势解读与风险报告生成能力的AI系统；政策研究机构则能通过其中的政治与治理相关问题测试自动化摘要、决策支持与事实核查工具的有效性。此外，开发下一代研究助手的团队常将ICBCBench作为核心评估框架，用以验证其产品在复杂信息检索、证据综合与可追溯推理方面的表现，从而确保输出内容兼具深度与可靠性。

衍生相关工作

基于ICBCBench的评估需求与题目设计理念，学术界已衍生出一系列创新工作。一方面，研究者围绕该基准提出了改进的检索增强生成评测协议与方法，例如专门针对金融事实的多源验证流程；另一方面，受其主观报告题型的启发，陆续出现了聚焦长文本连贯性与引用准确性的专项评估指标。此外，ICBCBench所覆盖的金融与政治领域稀缺数据也催生了相应的教学与训练数据集，用于引导模型学习专业领域的问题分析框架与严谨论证风格，进一步拓宽了该基准在模型能力提升与安全对齐研究中的影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集