AlignBench|语言模型评估数据集|测评数据集数据集
收藏AlignBench: 多维度中文对齐评测基准
数据集信息
AlignBench 是一个用于评估中文大语言模型对齐性能的全面、多维度的评测基准。数据集包含 683 个高质量评测数据,主要来自 ChatGLM 在线服务中真实用户的问题和研究人员构造的挑战性问题。
分类体系
数据集根据用户指令构建了一个全面的大语言模型能力分类体系,分为 8 个主要类别:
类别 | 中文名 | 样本数量 |
---|---|---|
Fundamental Language Ability | 基本任务 | 68 |
Advanced Chinese Understanding | 中文理解 | 58 |
Open-ended Questions | 综合问答 | 38 |
Writing Ability | 文本写作 | 75 |
Logical Reasoning | 逻辑推理 | 92 |
Mathematics | 数学计算 | 112 |
Task-oriented Role Play | 角色扮演 | 116 |
Professional Knowledge | 专业能力 | 124 |
数据格式
每个样本包含以下字段:
question_id
(整数):问题的唯一标识符。category
(字符串):问题所属的主要类别。subcategory
(字符串):用于进一步分类的次要类别。question
(字符串):实际用户查询。reference
(字符串):对问题的参考或标准答案。evidences
(列表):参考信息的来源网页和引用的信息。
示例
json { "question_id": 8, "category": "专业能力", "subcategory": "历史", "question": "麦哲伦航队在全球旅行时使用了六分仪测量经纬度么?", "reference": "不,麦哲伦航队在全球旅行时没有使用六分仪来测量经纬度。麦哲伦环球航行的时间是1519年—1522年,六分仪的原理由伊萨克·牛顿提出,而牛顿的出生时间是1643年1月4日,所以再麦哲伦航行的时间六分仪尚未被发明,使用六分仪是不可能的。", "evidences": [ { "url": "https://baike.baidu.com/item/%E6%96%90%E8%BF%AA%E5%8D%97%C2%B7%E9%BA%A6%E5%93%B2%E4%BC%A6/7397066#SnippetTab
", "quote": "1519年,率领船队开始环球航行。1521年4月27日夜间,麦哲伦在菲律宾死于部落冲突。船队在他死后继续向西航行,回到欧洲,并完成了人类首次环球航行。
" }, { "url": "https://baike.baidu.com/item/%E5%85%AD%E5%88%86%E4%BB%AA/749782?fr=ge_ala#3", "quote": "六分仪的原理由伊萨克·牛顿提出,1732年,英国海军开始将原始仪器安装在船艇上,因为当时最大测量角度是90度,因此被称为八分仪。1757年,约翰·坎贝尔船长将八分仪的测量夹角提高到120度,发展成为六分仪。其后六分仪的测量夹角虽然逐渐提升到144度,但是其名称却一直保持不变。" } ] }

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
Amazon Reviews 2023
该数据集包含用户评论,如评分、评论文本、有用投票等,以及商品元数据,如产品描述、定价、图片等。数据集比以前的版本大245.2%,包含571.54M条评论,并具有更丰富的描述性商品特征和细粒度的时间戳。
github 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录