CHARM - 面向大语言模型的中文常识推理测评基准数据集|中文常识推理数据集|人工智能评估数据集

github2024-04-19 更新2024-06-15 收录

中文常识推理

人工智能评估

下载链接：

https://github.com/opendatalab/CHARM

下载链接

链接失效反馈

资源简介：

CHARM由武汉大学，同济大学和上海人工智能实验室联合推出，是首个全面深入评估大型语言模型（LLMs）在中文常识推理能力的基准测试。该数据集不仅覆盖国际普遍认知的常识，还包括具有中国特色的常识领域，如历史、传统文化与艺术、日常生活和习俗、娱乐、公众人物、地理和汉语语言等方面。CHARM数据集的特点在于它包含紧密相连的推理和记忆任务，设计了1800个推理任务和759个记忆任务，这样的设计允许同时评估LLMs在这两个领域的能力，并深入理解它们之间的相关性。该基准测试为非英语环境下的LLMs性能评估提供了新的视角和工具，对于推动人工智能在中文领域的理解和应用具有重要意义。

CHARM, jointly launched by Wuhan University, Tongji University, and the Shanghai Artificial Intelligence Laboratory, is the first benchmark to comprehensively and deeply evaluate the Chinese common sense reasoning capabilities of large language models (LLMs). This dataset not only covers internationally recognized common sense but also includes areas with Chinese characteristics, such as history, traditional culture and art, daily life and customs, entertainment, public figures, geography, and the Chinese language. The distinctive feature of the CHARM dataset lies in its inclusion of closely linked reasoning and memory tasks, designing 1,800 reasoning tasks and 759 memory tasks. This design allows for the simultaneous assessment of LLMs' capabilities in these two areas and provides a deeper understanding of the correlation between them. This benchmark offers new perspectives and tools for evaluating the performance of LLMs in non-English environments, playing a significant role in advancing the understanding and application of artificial intelligence in the Chinese context.

提供机构：

由武汉大学、同济大学、上海人工智能实验室

创建时间：

2024-04-19

原始信息汇总

数据集概述

数据集名称

CHARM (Chinese Commonsense Reasoning Benchmark)

数据集目的

CHARM旨在评估大型语言模型（LLMs）在中文常识推理方面的表现，特别关注中文特有元素与推理记忆关联性。

数据集特点

CN-Lang: 数据集内容为中文语言。
CSR: 专注于常识推理。
CN-specifics: 包含中国文化、语言、历史等独特元素。
Dual-Domain: 涵盖中文特有及全球域任务。
Rea-Mem: 结合推理与记忆任务。

数据集更新日志

2024.6.06: 更新了排行榜，评估了LLaMA-3, GPT-4o, Gemini-1.5, Yi1.5, Qwen1.5等模型。
2024.5.24: 数据集开源。
2024.5.15: 被接受于ACL 2024主会议。
2024.3.21: 论文发布于arXiv。

数据集使用指南

环境设置: 需安装OpenCompass。
数据下载: 通过Git克隆数据集。
推理与评估: 使用OpenCompass进行模型评估，结果存储于指定目录。
结果分析: 使用提供的Python脚本生成分析结果，包括表格和图表。

数据集引用信息

bibtex @misc{sun2024benchmarking, title={Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations}, author={Jiaxing Sun and Weiquan Huang and Jiang Wu and Chenya Gu and Wei Li and Songyang Zhang and Hang Yan and Conghui He}, year={2024}, eprint={2403.14112}, archivePrefix={arXiv}, primaryClass={cs.CL} }

数据集许可证

Apache 2.0

AI搜集汇总

数据集介绍

构建方式

CHARM数据集的构建方式独具匠心，旨在全面评估大语言模型在中文常识推理方面的能力。该数据集不仅涵盖了中文特有的文化、语言和历史元素，还巧妙地融合了全球通用领域的任务，确保了测试的全面性和公正性。此外，CHARM特别强调了推理与记忆任务的紧密关联，通过设计一系列相互关联的问题，深入探究模型在复杂情境下的表现。

特点

CHARM数据集的显著特点在于其对中文特有元素的深入挖掘和全面覆盖，这使得该数据集在评估模型对中文语境的理解能力方面具有独特优势。同时，CHARM通过双领域任务的设计，确保了测试的多样性和广泛性，从而能够更准确地反映模型在不同语境下的表现。此外，该数据集还特别关注推理与记忆任务的关联性，为研究模型的综合能力提供了有力支持。

使用方法

使用CHARM数据集进行评估时，首先需设置OpenCompass环境，然后下载并链接CHARM数据集。接着，通过运行推理和评估脚本，生成模型的预测结果和评估结果。最后，利用提供的工具生成详细的分析结果，包括表格和图表，以便深入理解模型的表现。整个过程简便高效，确保了评估的全面性和准确性。

背景与挑战

背景概述

在自然语言处理领域，大语言模型的常识推理能力一直是研究的热点。CHARM数据集，由Jiaxing Sun等人于2024年创建，旨在评估大语言模型在中文环境下的常识推理能力。该数据集不仅涵盖了中文特有的文化、语言和历史元素，还探索了推理与记忆之间的关联。CHARM的推出填补了中文常识推理测评的空白，为研究者提供了一个全面的基准，推动了中文自然语言处理技术的发展。

当前挑战

CHARM数据集在构建过程中面临多重挑战。首先，如何设计既能体现中文特色又能广泛适用的推理任务是一个难题。其次，数据集需要平衡推理与记忆任务的复杂性，确保评估的全面性和准确性。此外，由于中文语言的多样性和复杂性，数据集的标注和验证过程也极具挑战。这些挑战不仅考验了研究者的技术能力，也推动了相关领域技术的进步。

常用场景

经典使用场景

CHARM数据集的经典使用场景在于评估和提升大语言模型在中文常识推理方面的能力。通过提供丰富的中文特定常识问题，CHARM帮助研究人员和开发者测试模型在处理中文文化、历史和语言特性方面的表现，从而推动模型在中文环境下的智能推理能力。

实际应用

在实际应用中，CHARM数据集可用于开发和优化面向中文用户的智能助手、教育工具和内容推荐系统。通过提升模型对中文常识的理解和推理能力，这些应用能够更准确地响应用户需求，提供更加个性化和智能化的服务，从而增强用户体验。

衍生相关工作

基于CHARM数据集，研究者们已经开展了一系列相关工作，包括但不限于改进中文常识推理算法、开发新的评估指标以及构建更加复杂的中文推理任务。这些工作不仅深化了对大语言模型在中文环境下表现的认识，也为未来的研究提供了丰富的理论和实践基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

ChemBL

ChemBL是一个化学信息学数据库，包含大量生物活性数据，涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。