CHARM

arXiv2024-04-19 更新2024-07-30 收录

下载链接：

https://github.com/opendatalab/CHARM

下载链接

链接失效反馈

官方服务：

资源简介：

CHARM是第一个用于全面深入评估大型语言模型（LLMs）在中文常识推理能力的基准，涵盖了全球知名和中文特有的常识。

CHARM is the first benchmark designed for comprehensive and in-depth evaluation of Large Language Models (LLMs) on Chinese commonsense reasoning capabilities, covering both globally renowned and Chinese-specific commonsense knowledge.

创建时间：

2024-03-21

原始信息汇总

CHARM 数据集概述

数据集构建

CHARM 数据集专注于中文常识推理，旨在评估大型语言模型（LLMs）在中文特定情境下的推理能力，并探索推理与记忆之间的关联。

数据集特点

CHARM 数据集具有以下特点：

CN-Lang: 数据集以中文呈现。
CSR: 数据集专注于常识推理。
CN-specific: 数据集包含中国文化、语言、地区特色、历史等独特元素。
Dual-Domain: 数据集涵盖中文特定和全球领域任务，问题呈现风格和格式相似。
Rea-Mem: 数据集包含紧密关联的推理和记忆任务。

数据集比较

以下是 CHARM 与其他常识推理基准的比较：

Benchmarks	CN-Lang	CSR	CN-specific	Dual-Domain	Rea-Mem
Most benchmarks in davis2023benchmarks	✘	✔	✘	✘	✘
XNLI, XCOPA, XStoryCloze	✔	✔	✘	✘	✘
LogiQA, CLUE, CMMLU	✔	✘	✔	✘	✘
CORECODE	✔	✔	✘	✘	✘
CHARM (ours)	✔	✔	✔	✔	✔

使用指南

环境设置

参考 OpenCompass 的安装步骤。

下载 CHARM

bash git clone https://github.com/opendatalab/CHARM ${path_to_CHARM_repo} cd ${path_to_opencompass} mkdir data ln -snf ${path_to_CHARM_repo}/data/CHARM ./data/CHARM

运行推理和评估

bash cd ${path_to_opencompass} python run.py configs/eval_charm_rea.py -r --dump-eval-details python run.py configs/eval_charm_mem.py -r --dump-eval-details

生成分析结果

bash cd ${path_to_CHARM_repo} PYTHONPATH=. python tools/summarize_reasoning.py ${REASON_SUMMARY_CSV} PYTHONPATH=. python tools/summarize_mem_rea.py ${REASON_SUMMARY_CSV} ${MEMORY_SUMMARY_CSV} PYTHONPATH=. python tools/analyze_mem_indep_rea.py data/CHARM ${REASON_RESULTS_DIR} ${MEMORY_SUMMARY_DIR} ${MEMORY_SUMMARY_CSV}

引用

bibtex @misc{sun2024benchmarking, title={Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations}, author={Jiaxing Sun and Weiquan Huang and Jiang Wu and Chenya Gu and Wei Li and Songyang Zhang and Hang Yan and Conghui He}, year={2024}, eprint={2403.14112}, archivePrefix={arXiv}, primaryClass={cs.CL} }

许可证

本项目基于 Apache 2.0 许可证发布。

搜集汇总

数据集介绍

构建方式

CHARM数据集的构建方式分为三个主要步骤：翻译、选择和手工制作。翻译步骤中，我们将现有的英语常识推理基准数据集翻译成中文，并替换为常用的中文名称。选择步骤中，我们从优秀的本土中文数据集中挑选出符合要求的题目。手工制作步骤中，我们根据中文常识领域的实体列表，参考对应的全球领域任务问题，构建出相同类型和风格的题目。这样的设计使得两个领域中的相同推理任务仅在常识领域上有所不同，从而便于更清晰地比较LLMs的性能。

特点

CHARM数据集的特点在于其全面性和深度。它不仅涵盖了全球公认的常识，还包括了中国特有的常识，如历史、传统文化和艺术、日常生活和习俗、娱乐、公众人物、地理和中国语言等七个方面。这使得CHARM能够对中国语境下LLMs的推理能力进行深入和全面的评估。此外，CHARM还包括了紧密相连的推理和记忆任务，有助于揭示LLMs的记忆和推理之间的内在联系。

使用方法

使用CHARM数据集的方法主要包括以下步骤：首先，选择合适的LLMs和提示策略。其次，在CHARM推理任务上进行评估，并记录LLMs的性能。然后，分析LLMs在不同常识领域和提示策略下的性能差异。最后，根据LLMs在记忆和推理任务上的表现，评估其记忆和推理之间的相关性，并分析其典型错误类型。通过这些步骤，我们可以深入了解LLMs在中国常识推理方面的能力和不足，为LLMs的优化和改进提供指导。

背景与挑战

背景概述

在自然语言处理领域，常识推理能力对于大型语言模型（LLMs）的发展至关重要。CHARM数据集的提出填补了中文环境下LLMs常识推理评估的空白。该数据集由上海人工智能实验室的研究人员于2024年创建，旨在全面深入地评估LLMs在中文常识推理方面的能力。CHARM涵盖了全球公认的常识和中国特有的常识，并构建了紧密相连的推理和记忆任务，以揭示LLMs记忆和推理之间的内在关联。这一数据集对于推动LLMs在中文环境下的常识推理能力具有重要意义。

当前挑战

CHARM数据集面临的主要挑战包括：1) 如何准确地评估LLMs在不同领域（如历史、文化、日常生活等）的常识推理能力；2) 如何构建紧密相连的推理和记忆任务，以便更深入地理解LLMs的记忆和推理之间的关联；3) 如何选择合适的提示策略来提高LLMs的推理能力。此外，CHARM数据集的自动化构建和评估也需要进一步改进。

常用场景

经典使用场景

CHARM数据集是首个全面深入评估大型语言模型（LLMs）在中文常识推理能力方面的基准，涵盖了全球公认的常识和中文特有的常识。该数据集的经典使用场景包括评估LLMs在不同领域的常识推理能力，如历史、传统文化和艺术、日常生活和习俗、娱乐、公众人物、地理和中文语言。此外，CHARM还用于研究提示策略对LLMs推理能力的影响，以及内存和推理之间的关系。

解决学术问题

CHARM数据集解决了现有常识推理基准主要集中在英语方面的不足，为评估LLMs在中文环境下的常识推理能力提供了重要的参考。此外，CHARM还揭示了内存和推理之间的内在联系，为LLMs的优化提供了明确的方向。

衍生相关工作

CHARM数据集的发布，激发了更多关于LLMs在中文常识推理能力方面的研究。相关研究工作包括但不限于：1. 开发更多适用于中文环境的常识推理基准；2. 研究和改进提示策略，提高LLMs在不同语言环境下的推理能力；3. 探索LLMs内存和推理之间的内在联系，为LLMs的优化提供更多理论和实践指导。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集