CHARM|大型语言模型数据集|中文常识推理数据集
收藏CHARM 数据集概述
数据集构建
CHARM 数据集专注于中文常识推理,旨在评估大型语言模型(LLMs)在中文特定情境下的推理能力,并探索推理与记忆之间的关联。
数据集特点
CHARM 数据集具有以下特点:
- CN-Lang: 数据集以中文呈现。
- CSR: 数据集专注于常识推理。
- CN-specific: 数据集包含中国文化、语言、地区特色、历史等独特元素。
- Dual-Domain: 数据集涵盖中文特定和全球领域任务,问题呈现风格和格式相似。
- Rea-Mem: 数据集包含紧密关联的推理和记忆任务。
数据集比较
以下是 CHARM 与其他常识推理基准的比较:
Benchmarks | CN-Lang | CSR | CN-specific | Dual-Domain | Rea-Mem |
---|---|---|---|---|---|
Most benchmarks in davis2023benchmarks | ✘ | ✔ | ✘ | ✘ | ✘ |
XNLI, XCOPA, XStoryCloze | ✔ | ✔ | ✘ | ✘ | ✘ |
LogiQA, CLUE, CMMLU | ✔ | ✘ | ✔ | ✘ | ✘ |
CORECODE | ✔ | ✔ | ✘ | ✘ | ✘ |
CHARM (ours) | ✔ | ✔ | ✔ | ✔ | ✔ |
最新动态
- 2024.7.26: CHARM 的推理和评估由 Opencompass 支持。
- 2024.6.06: 更新了排行榜,评估了 LLaMA-3, GPT-4o, Gemini-1.5, Yi1.5, Qwen1.5 等模型。
- 2024.5.24: CHARM 已开源。
- 2024.5.15: CHARM 被 ACL 2024 主会议接受。
- 2024.3.21: 论文在 ArXiv 上发布。
使用指南
环境设置
参考 OpenCompass 的安装步骤。
下载 CHARM
bash git clone https://github.com/opendatalab/CHARM ${path_to_CHARM_repo} cd ${path_to_opencompass} mkdir data ln -snf ${path_to_CHARM_repo}/data/CHARM ./data/CHARM
运行推理和评估
bash cd ${path_to_opencompass} python run.py configs/eval_charm_rea.py -r --dump-eval-details python run.py configs/eval_charm_mem.py -r --dump-eval-details
生成分析结果
bash cd ${path_to_CHARM_repo} PYTHONPATH=. python tools/summarize_reasoning.py ${REASON_SUMMARY_CSV} PYTHONPATH=. python tools/summarize_mem_rea.py ${REASON_SUMMARY_CSV} ${MEMORY_SUMMARY_CSV} PYTHONPATH=. python tools/analyze_mem_indep_rea.py data/CHARM ${REASON_RESULTS_DIR} ${MEMORY_SUMMARY_DIR} ${MEMORY_SUMMARY_CSV}
引用
bibtex @misc{sun2024benchmarking, title={Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations}, author={Jiaxing Sun and Weiquan Huang and Jiang Wu and Chenya Gu and Wei Li and Songyang Zhang and Hang Yan and Conghui He}, year={2024}, eprint={2403.14112}, archivePrefix={arXiv}, primaryClass={cs.CL} }
许可证
本项目基于 Apache 2.0 许可证发布。
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录