CHARM - 面向大语言模型的中文常识推理测评基准数据集|中文常识推理数据集|人工智能评估数据集
收藏数据集概述
数据集名称
CHARM (Chinese Commonsense Reasoning Benchmark)
数据集目的
CHARM旨在评估大型语言模型(LLMs)在中文常识推理方面的表现,特别关注中文特有元素与推理记忆关联性。
数据集特点
- CN-Lang: 数据集内容为中文语言。
- CSR: 专注于常识推理。
- CN-specifics: 包含中国文化、语言、历史等独特元素。
- Dual-Domain: 涵盖中文特有及全球域任务。
- Rea-Mem: 结合推理与记忆任务。
数据集更新日志
- 2024.6.06: 更新了排行榜,评估了LLaMA-3, GPT-4o, Gemini-1.5, Yi1.5, Qwen1.5等模型。
- 2024.5.24: 数据集开源。
- 2024.5.15: 被接受于ACL 2024主会议。
- 2024.3.21: 论文发布于arXiv。
数据集使用指南
- 环境设置: 需安装OpenCompass。
- 数据下载: 通过Git克隆数据集。
- 推理与评估: 使用OpenCompass进行模型评估,结果存储于指定目录。
- 结果分析: 使用提供的Python脚本生成分析结果,包括表格和图表。
数据集引用信息
bibtex @misc{sun2024benchmarking, title={Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations}, author={Jiaxing Sun and Weiquan Huang and Jiang Wu and Chenya Gu and Wei Li and Songyang Zhang and Hang Yan and Conghui He}, year={2024}, eprint={2403.14112}, archivePrefix={arXiv}, primaryClass={cs.CL} }
数据集许可证
Apache 2.0

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
ChemBL
ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。
www.ebi.ac.uk 收录