CLiB|大型语言模型数据集|中文能力评估数据集
收藏CLiB中文大模型能力评测榜单
数据集概述
- 模型覆盖:208个大模型,涵盖chatgpt、gpt-4o、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言等商用模型,以及DeepSeek-R1、llama3.3、phi-4等开源模型。
- 评测维度:7大领域(医疗、教育、法律、行政公务、心理健康、推理与数学计算、语言与指令遵从),细分约300个维度(如牙科、高中语文等)。
- 特色数据:提供超100万的大模型错题本,支持研究分析与改进。
核心内容
1. 综合能力排行榜
- 评分标准:医疗、教育等7领域得分的平均值。
- 子榜单:
- 推理类模型排行榜
- 商用大模型排行榜(按输出价格分4档)
- 开源大模型排行榜(按参数量分3档)
2. 领域专项排行榜
医疗领域
- 医师考试:规培结业、执业助理医师、执业医师、中级职称、高级职称
- 专业考试:护理、药师、医技
- 医学知识:基础医学、临床医学、预防医学与公共卫生学、中医学与中药学
- 医学考研
教育领域
- 高考
- 高中/初中/小学学科
其他领域
- 法律(律师资格考试)
- 行政公务(公务员考试)
- 心理健康
- 推理与数学计算(含符号推理、算术能力等)
- 语言与指令遵从(含成语理解、情感分析等)
3. 模型基础信息
- 字段:模型名称、厂商、是否开源、输入/输出价格、体验链接、下载地址、论文、错误案例
- 示例模型:
- GLM-4-Flash(智谱AI,商用)
- internlm2_5-7b-chat(上海人工智能实验室,开源)
- Yi-1.5-9B-Chat(零一万物,开源)
数据更新
- 最新版本:v3.11(2025/3/27)
- 新增"医学考研"排行榜
- 优化教育领域测试样本
- 历史版本:自2023年6月起持续更新,详细记录见CHANGELOG.md
数据应用
- 支持自定义维度筛选榜单
- 提供模型错误案例分析(如gpt-4o、deepseek-chat-v3等旗舰模型)
- 开源模型资源汇总及发布历史记录
注:所有排行榜及详细数据可通过原链接查看,此处仅作关键信息摘要。

Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
yahoo-finance-data
该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。
huggingface 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
frames-benchmark
FRAMES数据集是一个综合评估数据集,旨在测试检索增强生成(RAG)系统在事实性、检索准确性和推理方面的能力。该数据集包含824个具有挑战性的多跳问题,这些问题需要从2到15篇维基百科文章中获取信息。问题涵盖了历史、体育、科学、动物、健康等多个主题,并且每个问题都标有推理类型,如数值、表格、多重约束、时间性和后处理。数据集还提供了每个问题的黄金答案和相关的维基百科文章。FRAMES数据集的主要特点包括测试端到端的RAG能力、需要整合来自多个来源的信息、包含复杂的推理和时间性消歧,并设计为对最先进的语言模型具有挑战性。该数据集可用于评估RAG系统性能、基准测试语言模型的事实性和推理能力,以及开发和测试多跳检索策略。
huggingface 收录
专精特新“小巨人”合肥企业名单(第一批~第四批)
根据工信部的定义,专精特新“小巨人”企业是“专精特新”中小企业中的佼佼者,是专注于细分市场、创新能力强、市场占有率高、掌握关键核心技术、质量效益优的排头兵企业。 截止第四批,目前,全市“小巨人”企业总数达140户,占全国的1.6%,在全国城市及省会城市排名各进一位,位居全国城市第十四,省会城市第五。 2022 年 6 月,合肥市发布《专精特新中小企业倍增培育行动计划》,到2025年,合肥计划培育省级专精特新冠军企业和国家级专精特新“小巨人”企业300家,推动50家专精特新中小企业上市挂牌。接下来,合肥还将支持地方国有金融机构设立专精特新专项融资产品,力争每条产业链培育一批国家级专精特新“小巨人”企业。
合肥数据要素流通平台 收录