CHARM - 面向大语言模型的中文常识推理测评基准数据集|中文常识推理数据集|人工智能评估数据集
收藏数据集概述
数据集名称
CHARM (Chinese Commonsense Reasoning Benchmark)
数据集目的
CHARM旨在评估大型语言模型(LLMs)在中文常识推理方面的表现,特别关注中文特有元素与推理记忆关联性。
数据集特点
- CN-Lang: 数据集内容为中文语言。
- CSR: 专注于常识推理。
- CN-specifics: 包含中国文化、语言、历史等独特元素。
- Dual-Domain: 涵盖中文特有及全球域任务。
- Rea-Mem: 结合推理与记忆任务。
数据集更新日志
- 2024.6.06: 更新了排行榜,评估了LLaMA-3, GPT-4o, Gemini-1.5, Yi1.5, Qwen1.5等模型。
- 2024.5.24: 数据集开源。
- 2024.5.15: 被接受于ACL 2024主会议。
- 2024.3.21: 论文发布于arXiv。
数据集使用指南
- 环境设置: 需安装OpenCompass。
- 数据下载: 通过Git克隆数据集。
- 推理与评估: 使用OpenCompass进行模型评估,结果存储于指定目录。
- 结果分析: 使用提供的Python脚本生成分析结果,包括表格和图表。
数据集引用信息
bibtex @misc{sun2024benchmarking, title={Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations}, author={Jiaxing Sun and Weiquan Huang and Jiang Wu and Chenya Gu and Wei Li and Songyang Zhang and Hang Yan and Conghui He}, year={2024}, eprint={2403.14112}, archivePrefix={arXiv}, primaryClass={cs.CL} }
数据集许可证
Apache 2.0

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录