five

CHARM|大型语言模型数据集|中文常识推理数据集

收藏
arXiv2024-04-19 更新2024-07-30 收录
大型语言模型
中文常识推理
下载链接:
https://github.com/opendatalab/CHARM
下载链接
链接失效反馈
资源简介:
CHARM是第一个用于全面深入评估大型语言模型(LLMs)在中文常识推理能力的基准,涵盖了全球知名和中文特有的常识。
创建时间:
2024-03-21
原始信息汇总

CHARM 数据集概述

数据集构建

CHARM 数据集专注于中文常识推理,旨在评估大型语言模型(LLMs)在中文特定情境下的推理能力,并探索推理与记忆之间的关联。

数据集特点

CHARM 数据集具有以下特点:

  • CN-Lang: 数据集以中文呈现。
  • CSR: 数据集专注于常识推理。
  • CN-specific: 数据集包含中国文化、语言、地区特色、历史等独特元素。
  • Dual-Domain: 数据集涵盖中文特定和全球领域任务,问题呈现风格和格式相似。
  • Rea-Mem: 数据集包含紧密关联的推理和记忆任务。

数据集比较

以下是 CHARM 与其他常识推理基准的比较:

Benchmarks CN-Lang CSR CN-specific Dual-Domain Rea-Mem
Most benchmarks in davis2023benchmarks
XNLI, XCOPA, XStoryCloze
LogiQA, CLUE, CMMLU
CORECODE
CHARM (ours)

最新动态

  • 2024.7.26: CHARM 的推理和评估由 Opencompass 支持。
  • 2024.6.06: 更新了排行榜,评估了 LLaMA-3, GPT-4o, Gemini-1.5, Yi1.5, Qwen1.5 等模型。
  • 2024.5.24: CHARM 已开源。
  • 2024.5.15: CHARM 被 ACL 2024 主会议接受。
  • 2024.3.21: 论文在 ArXiv 上发布。

使用指南

环境设置

参考 OpenCompass 的安装步骤。

下载 CHARM

bash git clone https://github.com/opendatalab/CHARM ${path_to_CHARM_repo} cd ${path_to_opencompass} mkdir data ln -snf ${path_to_CHARM_repo}/data/CHARM ./data/CHARM

运行推理和评估

bash cd ${path_to_opencompass} python run.py configs/eval_charm_rea.py -r --dump-eval-details python run.py configs/eval_charm_mem.py -r --dump-eval-details

生成分析结果

bash cd ${path_to_CHARM_repo} PYTHONPATH=. python tools/summarize_reasoning.py ${REASON_SUMMARY_CSV} PYTHONPATH=. python tools/summarize_mem_rea.py ${REASON_SUMMARY_CSV} ${MEMORY_SUMMARY_CSV} PYTHONPATH=. python tools/analyze_mem_indep_rea.py data/CHARM ${REASON_RESULTS_DIR} ${MEMORY_SUMMARY_DIR} ${MEMORY_SUMMARY_CSV}

引用

bibtex @misc{sun2024benchmarking, title={Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations}, author={Jiaxing Sun and Weiquan Huang and Jiang Wu and Chenya Gu and Wei Li and Songyang Zhang and Hang Yan and Conghui He}, year={2024}, eprint={2403.14112}, archivePrefix={arXiv}, primaryClass={cs.CL} }

许可证

本项目基于 Apache 2.0 许可证发布。

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录