five

CLiB|大型语言模型数据集|中文能力评估数据集

收藏
github2023-06-01 更新2025-02-07 收录
大型语言模型
中文能力评估
下载链接:
https://github.com/jeinlee1991/chinese-llm-benchmark
下载链接
链接失效反馈
资源简介:
CLiB数据集是用于评估大型语言模型(LLMs)中文能力的评估基准。它对48种大型语言模型(无论是商业化的还是开源的)进行了多维度的评估,包括分类、信息抽取、阅读理解以及基于表格的问答。该数据集会定期发布新的评估排名,并提供模型的原始输出结果。

The CLiB dataset serves as an evaluation benchmark for the Chinese language capabilities of large language models (LLMs). It conducts multi-dimensional evaluations on 48 large language models, including classification, information extraction, reading comprehension, and table-based question answering. The dataset regularly releases new evaluation rankings and provides the original output results of the models.
提供机构:
jeinlee1991
创建时间:
2023-06-01
原始信息汇总

CLiB中文大模型能力评测榜单

数据集概述

  • 模型覆盖:208个大模型,涵盖chatgpt、gpt-4o、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言等商用模型,以及DeepSeek-R1、llama3.3、phi-4等开源模型。
  • 评测维度:7大领域(医疗、教育、法律、行政公务、心理健康、推理与数学计算、语言与指令遵从),细分约300个维度(如牙科、高中语文等)。
  • 特色数据:提供超100万的大模型错题本,支持研究分析与改进。

核心内容

1. 综合能力排行榜

  • 评分标准:医疗、教育等7领域得分的平均值。
  • 子榜单
    • 推理类模型排行榜
    • 商用大模型排行榜(按输出价格分4档)
    • 开源大模型排行榜(按参数量分3档)

2. 领域专项排行榜

医疗领域

  • 医师考试:规培结业、执业助理医师、执业医师、中级职称、高级职称
  • 专业考试:护理、药师、医技
  • 医学知识:基础医学、临床医学、预防医学与公共卫生学、中医学与中药学
  • 医学考研

教育领域

  • 高考
  • 高中/初中/小学学科

其他领域

  • 法律(律师资格考试)
  • 行政公务(公务员考试)
  • 心理健康
  • 推理与数学计算(含符号推理、算术能力等)
  • 语言与指令遵从(含成语理解、情感分析等)

3. 模型基础信息

  • 字段:模型名称、厂商、是否开源、输入/输出价格、体验链接、下载地址、论文、错误案例
  • 示例模型
    • GLM-4-Flash(智谱AI,商用)
    • internlm2_5-7b-chat(上海人工智能实验室,开源)
    • Yi-1.5-9B-Chat(零一万物,开源)

数据更新

  • 最新版本:v3.11(2025/3/27)
    • 新增"医学考研"排行榜
    • 优化教育领域测试样本
  • 历史版本:自2023年6月起持续更新,详细记录见CHANGELOG.md

数据应用

  • 支持自定义维度筛选榜单
  • 提供模型错误案例分析(如gpt-4o、deepseek-chat-v3等旗舰模型)
  • 开源模型资源汇总及发布历史记录

注:所有排行榜及详细数据可通过原链接查看,此处仅作关键信息摘要。

AI搜集汇总
数据集介绍
main_image_url
构建方式
CLiB中文大模型能力评测榜单的构建基于对164个大模型的全面评估,涵盖商用与开源模型。数据来源包括国内外大厂、创业公司及高校研究机构,确保数据的广泛性和代表性。评测维度涵盖分类能力、信息抽取、阅读理解等15项能力,通过多维度评分体系对模型进行综合评估。榜单的构建过程注重数据的公开透明,所有模型的原始输出结果均对外提供,便于用户自行验证与评估。
特点
CLiB数据集的特点在于其全面性和多样性。它不仅涵盖了广泛的模型类型,还通过多维度能力评测体系对模型进行细致评估。榜单不仅提供综合能力评分,还针对不同领域(如高考、公务员考试、律师资格考试等)进行专项排名,帮助用户更精准地了解模型在不同任务中的表现。此外,榜单还提供了模型的原始输出结果,便于用户进行二次分析与验证,增强了数据的可复用性和透明度。
使用方法
用户可以通过CLiB榜单快速了解各大模型在不同任务中的表现,并根据需求进行模型选型。榜单提供了详细的评分数据和原始输出结果,用户可以根据这些数据进行深入分析,评估模型在实际应用中的潜力。此外,用户还可以通过自定义维度筛选榜单,获取特定领域或任务下的模型排名,从而更高效地进行技术选型与决策。榜单的持续更新机制确保了数据的时效性,帮助用户及时掌握大模型领域的最新动态。
背景与挑战
背景概述
CLiB中文大模型能力评测榜单由多个研究机构和企业共同发起,旨在为中文大模型提供一个全面、公正的评测平台。该榜单自2023年6月首次发布以来,持续更新,涵盖了164个大模型,包括商用和开源模型。榜单的创建旨在解决大模型在中文处理能力上的多样化需求,特别是在分类能力、信息抽取、阅读理解、数据分析等多个维度上的表现。通过这一平台,研究人员和开发者能够更清晰地了解各模型的优缺点,推动中文大模型技术的发展。
当前挑战
CLiB榜单在构建过程中面临多重挑战。首先,中文大模型的多样性使得评测标准的制定变得复杂,如何确保评测的公正性和全面性是一个重要问题。其次,随着新模型的不断涌现,榜单需要频繁更新以保持其时效性和权威性,这对数据收集和处理的效率提出了高要求。此外,评测过程中如何准确衡量模型在不同任务上的表现,尤其是在涉及复杂推理和语义理解的任务中,仍然是一个技术难题。最后,如何平衡商用模型和开源模型的评测标准,确保榜单的广泛适用性,也是榜单维护者需要持续解决的问题。
常用场景
经典使用场景
CLiB数据集广泛应用于大模型的多维度能力评测,尤其是在中文语境下的模型性能评估。通过涵盖分类能力、信息抽取、阅读理解、数据分析等多项任务,CLiB为研究者和开发者提供了一个全面的基准测试平台。其经典使用场景包括模型在高考、公务员考试、律师资格考试等复杂任务中的表现评估,帮助用户深入理解模型在不同领域的实际能力。
衍生相关工作
CLiB数据集的推出催生了一系列相关研究工作,尤其是在大模型评测和优化领域。基于CLiB的评测结果,许多研究团队提出了针对特定任务的模型改进方案,如提升符号推理能力、优化中文编码效率等。此外,CLiB还推动了多维度评测标准的制定,促进了学术界和产业界在大模型评测方法上的共识。其公开的原始数据也为后续研究提供了丰富的实验基础,推动了中文大模型技术的持续发展。
数据集最近研究
最新研究方向
随着大模型技术的快速发展,CLiB中文大模型能力评测榜单在自然语言处理领域的研究中扮演着重要角色。该榜单不仅涵盖了164个大模型,还通过多维度能力评测,如分类能力、信息抽取、阅读理解等,全面评估模型的性能。近年来,研究热点集中在如何通过更细粒度的评测维度(如时间实体抽取、地址实体抽取等)进一步提升模型的实用性和准确性。此外,榜单还引入了高考、公务员考试等实际应用场景的评测,推动了大模型在教育、法律等领域的应用研究。CLiB榜单的持续更新和扩展,为大模型技术的优化和实际应用提供了重要参考,促进了学术界与产业界的深度合作。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

yahoo-finance-data

该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。

huggingface 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

frames-benchmark

FRAMES数据集是一个综合评估数据集,旨在测试检索增强生成(RAG)系统在事实性、检索准确性和推理方面的能力。该数据集包含824个具有挑战性的多跳问题,这些问题需要从2到15篇维基百科文章中获取信息。问题涵盖了历史、体育、科学、动物、健康等多个主题,并且每个问题都标有推理类型,如数值、表格、多重约束、时间性和后处理。数据集还提供了每个问题的黄金答案和相关的维基百科文章。FRAMES数据集的主要特点包括测试端到端的RAG能力、需要整合来自多个来源的信息、包含复杂的推理和时间性消歧,并设计为对最先进的语言模型具有挑战性。该数据集可用于评估RAG系统性能、基准测试语言模型的事实性和推理能力,以及开发和测试多跳检索策略。

huggingface 收录

专精特新“小巨人”合肥企业名单(第一批~第四批)

根据工信部的定义,专精特新“小巨人”企业是“专精特新”中小企业中的佼佼者,是专注于细分市场、创新能力强、市场占有率高、掌握关键核心技术、质量效益优的排头兵企业。 截止第四批,目前,全市“小巨人”企业总数达140户,占全国的1.6%,在全国城市及省会城市排名各进一位,位居全国城市第十四,省会城市第五。 2022 年 6 月,合肥市发布《专精特新中小企业倍增培育行动计划》,到2025年,合肥计划培育省级专精特新冠军企业和国家级专精特新“小巨人”企业300家,推动50家专精特新中小企业上市挂牌。接下来,合肥还将支持地方国有金融机构设立专精特新专项融资产品,力争每条产业链培育一批国家级专精特新“小巨人”企业。

合肥数据要素流通平台 收录