CLiB

github2023-06-01 更新2025-02-07 收录

下载链接：

https://github.com/jeinlee1991/chinese-llm-benchmark

下载链接

链接失效反馈

资源简介：

CLiB数据集是用于评估大型语言模型（LLMs）中文能力的评估基准。它对48种大型语言模型（无论是商业化的还是开源的）进行了多维度的评估，包括分类、信息抽取、阅读理解以及基于表格的问答。该数据集会定期发布新的评估排名，并提供模型的原始输出结果。

The CLiB dataset serves as an evaluation benchmark for the Chinese language capabilities of large language models (LLMs). It conducts multi-dimensional evaluations on 48 large language models, including classification, information extraction, reading comprehension, and table-based question answering. The dataset regularly releases new evaluation rankings and provides the original output results of the models.

提供机构：

jeinlee1991

创建时间：

2023-06-01

原始信息汇总

CLiB中文大模型能力评测榜单

数据集概述

模型覆盖：208个大模型，涵盖chatgpt、gpt-4o、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言等商用模型，以及DeepSeek-R1、llama3.3、phi-4等开源模型。
评测维度：7大领域（医疗、教育、法律、行政公务、心理健康、推理与数学计算、语言与指令遵从），细分约300个维度（如牙科、高中语文等）。
特色数据：提供超100万的大模型错题本，支持研究分析与改进。

核心内容

1. 综合能力排行榜

评分标准：医疗、教育等7领域得分的平均值。
子榜单：
- 推理类模型排行榜
- 商用大模型排行榜（按输出价格分4档）
- 开源大模型排行榜（按参数量分3档）

2. 领域专项排行榜

医疗领域

医师考试：规培结业、执业助理医师、执业医师、中级职称、高级职称
专业考试：护理、药师、医技
医学知识：基础医学、临床医学、预防医学与公共卫生学、中医学与中药学
医学考研

教育领域

高考
高中/初中/小学学科

其他领域

法律（律师资格考试）
行政公务（公务员考试）
心理健康
推理与数学计算（含符号推理、算术能力等）
语言与指令遵从（含成语理解、情感分析等）

3. 模型基础信息

字段：模型名称、厂商、是否开源、输入/输出价格、体验链接、下载地址、论文、错误案例
示例模型：
- GLM-4-Flash（智谱AI，商用）
- internlm2_5-7b-chat（上海人工智能实验室，开源）
- Yi-1.5-9B-Chat（零一万物，开源）

数据更新

最新版本：v3.11（2025/3/27）
- 新增"医学考研"排行榜
- 优化教育领域测试样本
历史版本：自2023年6月起持续更新，详细记录见CHANGELOG.md

数据应用

支持自定义维度筛选榜单
提供模型错误案例分析（如gpt-4o、deepseek-chat-v3等旗舰模型）
开源模型资源汇总及发布历史记录

注：所有排行榜及详细数据可通过原链接查看，此处仅作关键信息摘要。

搜集汇总

数据集介绍

构建方式

CLiB中文大模型能力评测榜单的构建基于对164个大模型的全面评估，涵盖商用与开源模型。数据来源包括国内外大厂、创业公司及高校研究机构，确保数据的广泛性和代表性。评测维度涵盖分类能力、信息抽取、阅读理解等15项能力，通过多维度评分体系对模型进行综合评估。榜单的构建过程注重数据的公开透明，所有模型的原始输出结果均对外提供，便于用户自行验证与评估。

特点

CLiB数据集的特点在于其全面性和多样性。它不仅涵盖了广泛的模型类型，还通过多维度能力评测体系对模型进行细致评估。榜单不仅提供综合能力评分，还针对不同领域（如高考、公务员考试、律师资格考试等）进行专项排名，帮助用户更精准地了解模型在不同任务中的表现。此外，榜单还提供了模型的原始输出结果，便于用户进行二次分析与验证，增强了数据的可复用性和透明度。

使用方法

用户可以通过CLiB榜单快速了解各大模型在不同任务中的表现，并根据需求进行模型选型。榜单提供了详细的评分数据和原始输出结果，用户可以根据这些数据进行深入分析，评估模型在实际应用中的潜力。此外，用户还可以通过自定义维度筛选榜单，获取特定领域或任务下的模型排名，从而更高效地进行技术选型与决策。榜单的持续更新机制确保了数据的时效性，帮助用户及时掌握大模型领域的最新动态。

背景与挑战

背景概述

CLiB中文大模型能力评测榜单由多个研究机构和企业共同发起，旨在为中文大模型提供一个全面、公正的评测平台。该榜单自2023年6月首次发布以来，持续更新，涵盖了164个大模型，包括商用和开源模型。榜单的创建旨在解决大模型在中文处理能力上的多样化需求，特别是在分类能力、信息抽取、阅读理解、数据分析等多个维度上的表现。通过这一平台，研究人员和开发者能够更清晰地了解各模型的优缺点，推动中文大模型技术的发展。

当前挑战

CLiB榜单在构建过程中面临多重挑战。首先，中文大模型的多样性使得评测标准的制定变得复杂，如何确保评测的公正性和全面性是一个重要问题。其次，随着新模型的不断涌现，榜单需要频繁更新以保持其时效性和权威性，这对数据收集和处理的效率提出了高要求。此外，评测过程中如何准确衡量模型在不同任务上的表现，尤其是在涉及复杂推理和语义理解的任务中，仍然是一个技术难题。最后，如何平衡商用模型和开源模型的评测标准，确保榜单的广泛适用性，也是榜单维护者需要持续解决的问题。

常用场景

经典使用场景

CLiB数据集广泛应用于大模型的多维度能力评测，尤其是在中文语境下的模型性能评估。通过涵盖分类能力、信息抽取、阅读理解、数据分析等多项任务，CLiB为研究者和开发者提供了一个全面的基准测试平台。其经典使用场景包括模型在高考、公务员考试、律师资格考试等复杂任务中的表现评估，帮助用户深入理解模型在不同领域的实际能力。

衍生相关工作

CLiB数据集的推出催生了一系列相关研究工作，尤其是在大模型评测和优化领域。基于CLiB的评测结果，许多研究团队提出了针对特定任务的模型改进方案，如提升符号推理能力、优化中文编码效率等。此外，CLiB还推动了多维度评测标准的制定，促进了学术界和产业界在大模型评测方法上的共识。其公开的原始数据也为后续研究提供了丰富的实验基础，推动了中文大模型技术的持续发展。

数据集最近研究