AI-Ceping 大模型测评知识库
收藏github2024-07-03 更新2024-07-04 收录
下载链接:
https://github.com/AI-Ceping/LLM-Ceping
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由同济大学发起,旨在通过社区用户的创意和灵感,贡献真实的AI语料,以助于大模型的持续迭代和维护。数据集包括从海量开源数据集中筛选出的优质数据,方便大模型使用者快速微调、评测。
This dataset was initiated by Tongji University, aiming to collect authentic AI corpora via the creativity and inspiration of community users, so as to facilitate the continuous iteration and maintenance of large language models. It comprises high-quality data screened from a massive pool of open-source datasets, enabling rapid fine-tuning and evaluation for large language model users.
创建时间:
2024-07-02
原始信息汇总
LLM-Ceping 全面的大语言模型评测知识库
简介
LLM-Ceping 是一个现代化的、零门槛、年轻化的平台,旨在通过用户对大模型应用的理解和不同领域的知识,设计高质量的评测数据来对大模型进行综合评估。
目标
- 通过社区用户共建,提供准确、靠谱、权威的大模型评测体系。
- 确保评测试题隐私、公正,避免大模型在训练中见过或背题。
- 提供具有指导意义的评测,针对性的评价大模型的各项能力,指导未来大模型的研究方向。
目录
- 大模型评测小白入门指北
- 什么是大语言模型?
- 数据构建操作流程
- 如何构思出优秀的数据?
- Prompt Engineering 提示词工程
- 各渠道大模型榜单(LeaderBoard)
- 基础模型榜单
- 多模态榜单
大模型评测小白入门指北
什么是大语言模型?
大语言模型(Large Language Model,简称LLM)是一种基于深度学习技术的自然语言处理模型,通过学习大量文本数据来理解、生成和翻译自然语言。
大语言模型评测的意义
- 衡量性能
- 指导改进
- 比较不同模型
- 确保安全与公平
大语言模型评测的方式
- 基准测试
- 人类评价
- 实际应用测试
- 对抗测试
- 公平性和伦理测试
数据构建操作流程
- 进入AI-Ceping官网,选择任务。
- 阅读玩法简介。
- 选择标签,阅读任务说明,开始撰写数据。
- 填写数据后,点击分析问题,进入机审环节。
- 机审通过后,提交问题,进入人审环节。
- 人审通过后,现金奖励自动到达账户。
如何构思出优秀的数据
数据要求
- 题目设置了细节信息
- 题目有难度,难度分 > 60 分
- 没有违反法律法规、公序良俗等内容
- 没有逻辑错误
- 满足任务说明的全部要求
- 与自身数据、网络、数据库的数据大致不重复
- 有明确、唯一的指令,指令清晰
- 语句通顺、没有错别字、标点错误和歧义
数据未通过人工审核的可能原因
- 题目宽泛
- 安全问题
- 真实性欠缺
- 不符合任务说明
- 数据内容重复
- 结构、句式重复
- 指令不清
- 格式问题
Prompt Engineering 提示词工程
LeaderBord (社区评测榜单)
基础模型榜单
-
Leaderboard
- 介绍:LMSYS Chatbot Arena 是一个由众包方式建立的大型语言模型(LLM)评估开放平台。
- 详情:HuggingFace🤗
-
C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
- 介绍:C-Eval是全面的中文基础模型评估套件,涵盖了52个不同学科的13948个多项选择题。
- 详情:官方网站
多模态榜单
-
OpenCompass 多模态评测月度榜单
- 介绍:展示了不同多模态模型在各项多模态评测基准上的性能。
- 详情:官方网站
-
OpenVLM Leaderboard
- 介绍:这个排行榜上分享了通过VLMEvalKit开源框架获得的VLM的评估结果。
- 详情:HuggingFace🤗
搜集汇总
数据集介绍

构建方式
AI-Ceping 大模型测评知识库的构建方式主要依赖于用户贡献。平台通过激励机制,鼓励用户提出问题并撰写参考答案,从而生成高质量的评测数据。用户提交的数据经过三个大模型的回答生成,并通过GPT-4等强模型进行打分,以确保评测的客观性和准确性。此外,平台还整合了多模态内容,如文字、语音和视频,以全面评估模型的性能。
特点
该数据集的特点在于其开放性和用户参与性。通过众包方式,平台汇集了来自不同领域和地区的用户贡献,涵盖了超过563种不同的标签,确保了数据的多样性和广泛性。此外,平台采用多维度的评测标准,包括事实正确性、满足用户需求、清晰度、完备性和丰富度等,以全面反映模型的能力。
使用方法
使用AI-Ceping 大模型测评知识库时,用户可以通过平台提供的多种任务类型参与评测,如单条数据提问、数据扩写、评测任务和模型擂台等。用户提交的问题和答案将用于模型的训练和评测,同时用户还可以选择喜欢的模型回答并获得奖励。平台还提供了详细的任务概况说明和操作指南,以确保评测活动的顺利进行。
背景与挑战
背景概述
在人工智能领域,大型语言模型(Large Language Model)的发展迅猛,它们通过深度学习和大量数据训练,在语言理解、生成和翻译等方面取得了显著进步。随着ChatGPT等模型的出现,LLM的应用范围不断扩大,展现出巨大潜力。AI-Ceping大模型测评知识库由同济大学开发,旨在应对大语言模型评测的迫切需求,尤其是在ChatGPT掀起的研究和应用浪潮之后。该平台致力于构建一个权威、公正、透明的评测环境,以客观评估大型语言模型的能力,并反映这些模型需要解决的问题。
当前挑战
AI-Ceping大模型测评知识库面临的挑战包括:1) 传统评测方法依赖专家主观判断,缺乏客观性和可重复性;2) 随着模型规模和复杂性的增加,单一评测指标已不足以全面反映模型能力;3) 构建过程中需要处理大量多模态数据,确保评测的全面性和准确性;4) 需要吸引和激励大量用户参与数据贡献,以确保评测数据的多样性和高质量。
常用场景
经典使用场景
AI-Ceping 大模型测评知识库在人工智能领域中扮演着至关重要的角色,其经典使用场景主要集中在大型语言模型(LLM)的性能评估上。通过用户提问和撰写参考答案的方式,该平台能够收集大量真实世界的语料,从而为模型的训练和优化提供宝贵的数据支持。此外,用户还可以通过选择喜欢的模型回答来参与评测,这种多模态的评测方法不仅提高了评测的客观性,还增强了评测结果的可重复性和全面性。
解决学术问题
AI-Ceping 大模型测评知识库解决了传统评测方法中存在的多个学术研究问题。首先,它通过众包方式收集大量用户生成的数据,有效弥补了专家主观判断的不足,提升了评测的客观性和公正性。其次,该平台的多维度评测标准,如事实正确性、满足用户需求、清晰度等,能够全面反映模型的综合能力,避免了单一指标评测的片面性。此外,通过用户贡献的数据,该平台还能帮助研究者发现模型在特定领域或任务中的不足,从而推动模型的进一步优化和改进。
衍生相关工作
AI-Ceping 大模型测评知识库不仅自身具有重要价值,还衍生出了一系列相关的经典工作。例如,基于该平台的数据,研究者们开发了多种评测工具和方法,进一步提升了评测的效率和准确性。同时,该平台还促进了多个开源项目的诞生,如评测框架和数据集的共享,推动了整个评测领域的标准化和规范化。此外,通过该平台积累的数据和经验,还催生了一系列关于大模型评测的学术论文和研究报告,为学术界和工业界提供了丰富的理论和实践参考。
以上内容由遇见数据集搜集并总结生成



