CHARM
收藏CHARM 数据集概述
数据集构建
CHARM 数据集专注于中文常识推理,旨在评估大型语言模型(LLMs)在中文特定情境下的推理能力,并探索推理与记忆之间的关联。
数据集特点
CHARM 数据集具有以下特点:
- CN-Lang: 数据集以中文呈现。
- CSR: 数据集专注于常识推理。
- CN-specific: 数据集包含中国文化、语言、地区特色、历史等独特元素。
- Dual-Domain: 数据集涵盖中文特定和全球领域任务,问题呈现风格和格式相似。
- Rea-Mem: 数据集包含紧密关联的推理和记忆任务。
数据集比较
以下是 CHARM 与其他常识推理基准的比较:
| Benchmarks | CN-Lang | CSR | CN-specific | Dual-Domain | Rea-Mem |
|---|---|---|---|---|---|
| Most benchmarks in davis2023benchmarks | ✘ | ✔ | ✘ | ✘ | ✘ |
| XNLI, XCOPA, XStoryCloze | ✔ | ✔ | ✘ | ✘ | ✘ |
| LogiQA, CLUE, CMMLU | ✔ | ✘ | ✔ | ✘ | ✘ |
| CORECODE | ✔ | ✔ | ✘ | ✘ | ✘ |
| CHARM (ours) | ✔ | ✔ | ✔ | ✔ | ✔ |
最新动态
- 2024.7.26: CHARM 的推理和评估由 Opencompass 支持。
- 2024.6.06: 更新了排行榜,评估了 LLaMA-3, GPT-4o, Gemini-1.5, Yi1.5, Qwen1.5 等模型。
- 2024.5.24: CHARM 已开源。
- 2024.5.15: CHARM 被 ACL 2024 主会议接受。
- 2024.3.21: 论文在 ArXiv 上发布。
使用指南
环境设置
参考 OpenCompass 的安装步骤。
下载 CHARM
bash git clone https://github.com/opendatalab/CHARM ${path_to_CHARM_repo} cd ${path_to_opencompass} mkdir data ln -snf ${path_to_CHARM_repo}/data/CHARM ./data/CHARM
运行推理和评估
bash cd ${path_to_opencompass} python run.py configs/eval_charm_rea.py -r --dump-eval-details python run.py configs/eval_charm_mem.py -r --dump-eval-details
生成分析结果
bash cd ${path_to_CHARM_repo} PYTHONPATH=. python tools/summarize_reasoning.py ${REASON_SUMMARY_CSV} PYTHONPATH=. python tools/summarize_mem_rea.py ${REASON_SUMMARY_CSV} ${MEMORY_SUMMARY_CSV} PYTHONPATH=. python tools/analyze_mem_indep_rea.py data/CHARM ${REASON_RESULTS_DIR} ${MEMORY_SUMMARY_DIR} ${MEMORY_SUMMARY_CSV}
引用
bibtex @misc{sun2024benchmarking, title={Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations}, author={Jiaxing Sun and Weiquan Huang and Jiang Wu and Chenya Gu and Wei Li and Songyang Zhang and Hang Yan and Conghui He}, year={2024}, eprint={2403.14112}, archivePrefix={arXiv}, primaryClass={cs.CL} }
许可证
本项目基于 Apache 2.0 许可证发布。




