five

CHARM - 面向大语言模型的中文常识推理测评基准数据集|中文常识推理数据集|人工智能评估数据集

收藏
github2024-04-19 更新2024-06-15 收录
中文常识推理
人工智能评估
下载链接:
https://github.com/opendatalab/CHARM
下载链接
链接失效反馈
资源简介:
CHARM由武汉大学,同济大学和上海人工智能实验室联合推出,是首个全面深入评估大型语言模型(LLMs)在中文常识推理能力的基准测试。该数据集不仅覆盖国际普遍认知的常识,还包括具有中国特色的常识领域,如历史、传统文化与艺术、日常生活和习俗、娱乐、公众人物、地理和汉语语言等方面。CHARM数据集的特点在于它包含紧密相连的推理和记忆任务,设计了1800个推理任务和759个记忆任务,这样的设计允许同时评估LLMs在这两个领域的能力,并深入理解它们之间的相关性。该基准测试为非英语环境下的LLMs性能评估提供了新的视角和工具,对于推动人工智能在中文领域的理解和应用具有重要意义。

CHARM, jointly launched by Wuhan University, Tongji University, and the Shanghai Artificial Intelligence Laboratory, is the first benchmark to comprehensively and deeply evaluate the Chinese common sense reasoning capabilities of large language models (LLMs). This dataset not only covers internationally recognized common sense but also includes areas with Chinese characteristics, such as history, traditional culture and art, daily life and customs, entertainment, public figures, geography, and the Chinese language. The distinctive feature of the CHARM dataset lies in its inclusion of closely linked reasoning and memory tasks, designing 1,800 reasoning tasks and 759 memory tasks. This design allows for the simultaneous assessment of LLMs' capabilities in these two areas and provides a deeper understanding of the correlation between them. This benchmark offers new perspectives and tools for evaluating the performance of LLMs in non-English environments, playing a significant role in advancing the understanding and application of artificial intelligence in the Chinese context.
提供机构:
由武汉大学、同济大学、上海人工智能实验室
创建时间:
2024-04-19
原始信息汇总

数据集概述

数据集名称

CHARM (Chinese Commonsense Reasoning Benchmark)

数据集目的

CHARM旨在评估大型语言模型(LLMs)在中文常识推理方面的表现,特别关注中文特有元素与推理记忆关联性。

数据集特点

  • CN-Lang: 数据集内容为中文语言。
  • CSR: 专注于常识推理。
  • CN-specifics: 包含中国文化、语言、历史等独特元素。
  • Dual-Domain: 涵盖中文特有及全球域任务。
  • Rea-Mem: 结合推理与记忆任务。

数据集更新日志

  • 2024.6.06: 更新了排行榜,评估了LLaMA-3, GPT-4o, Gemini-1.5, Yi1.5, Qwen1.5等模型。
  • 2024.5.24: 数据集开源。
  • 2024.5.15: 被接受于ACL 2024主会议。
  • 2024.3.21: 论文发布于arXiv。

数据集使用指南

  • 环境设置: 需安装OpenCompass。
  • 数据下载: 通过Git克隆数据集。
  • 推理与评估: 使用OpenCompass进行模型评估,结果存储于指定目录。
  • 结果分析: 使用提供的Python脚本生成分析结果,包括表格和图表。

数据集引用信息

bibtex @misc{sun2024benchmarking, title={Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations}, author={Jiaxing Sun and Weiquan Huang and Jiang Wu and Chenya Gu and Wei Li and Songyang Zhang and Hang Yan and Conghui He}, year={2024}, eprint={2403.14112}, archivePrefix={arXiv}, primaryClass={cs.CL} }

数据集许可证

Apache 2.0

AI搜集汇总
数据集介绍
main_image_url
构建方式
CHARM数据集的构建方式独具匠心,旨在全面评估大语言模型在中文常识推理方面的能力。该数据集不仅涵盖了中文特有的文化、语言和历史元素,还巧妙地融合了全球通用领域的任务,确保了测试的全面性和公正性。此外,CHARM特别强调了推理与记忆任务的紧密关联,通过设计一系列相互关联的问题,深入探究模型在复杂情境下的表现。
特点
CHARM数据集的显著特点在于其对中文特有元素的深入挖掘和全面覆盖,这使得该数据集在评估模型对中文语境的理解能力方面具有独特优势。同时,CHARM通过双领域任务的设计,确保了测试的多样性和广泛性,从而能够更准确地反映模型在不同语境下的表现。此外,该数据集还特别关注推理与记忆任务的关联性,为研究模型的综合能力提供了有力支持。
使用方法
使用CHARM数据集进行评估时,首先需设置OpenCompass环境,然后下载并链接CHARM数据集。接着,通过运行推理和评估脚本,生成模型的预测结果和评估结果。最后,利用提供的工具生成详细的分析结果,包括表格和图表,以便深入理解模型的表现。整个过程简便高效,确保了评估的全面性和准确性。
背景与挑战
背景概述
在自然语言处理领域,大语言模型的常识推理能力一直是研究的热点。CHARM数据集,由Jiaxing Sun等人于2024年创建,旨在评估大语言模型在中文环境下的常识推理能力。该数据集不仅涵盖了中文特有的文化、语言和历史元素,还探索了推理与记忆之间的关联。CHARM的推出填补了中文常识推理测评的空白,为研究者提供了一个全面的基准,推动了中文自然语言处理技术的发展。
当前挑战
CHARM数据集在构建过程中面临多重挑战。首先,如何设计既能体现中文特色又能广泛适用的推理任务是一个难题。其次,数据集需要平衡推理与记忆任务的复杂性,确保评估的全面性和准确性。此外,由于中文语言的多样性和复杂性,数据集的标注和验证过程也极具挑战。这些挑战不仅考验了研究者的技术能力,也推动了相关领域技术的进步。
常用场景
经典使用场景
CHARM数据集的经典使用场景在于评估和提升大语言模型在中文常识推理方面的能力。通过提供丰富的中文特定常识问题,CHARM帮助研究人员和开发者测试模型在处理中文文化、历史和语言特性方面的表现,从而推动模型在中文环境下的智能推理能力。
实际应用
在实际应用中,CHARM数据集可用于开发和优化面向中文用户的智能助手、教育工具和内容推荐系统。通过提升模型对中文常识的理解和推理能力,这些应用能够更准确地响应用户需求,提供更加个性化和智能化的服务,从而增强用户体验。
衍生相关工作
基于CHARM数据集,研究者们已经开展了一系列相关工作,包括但不限于改进中文常识推理算法、开发新的评估指标以及构建更加复杂的中文推理任务。这些工作不仅深化了对大语言模型在中文环境下表现的认识,也为未来的研究提供了丰富的理论和实践基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录