【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72
CaLM Dataset - 多样化的因果评测数据集
收藏github2024-05-31 收录
下载链接:
https://github.com/OpenCausaLab/CaLM
下载链接
链接失效反馈官方服务:
资源简介:
CaLM Dataset是上海人工智能实验室、同济大学、上海交通大学、北京大学及商汤科技联合构建的一套全新的评测数据集,旨在使因果推理能力评估有“考题”可循。该数据集包含超过12万条中英文数据,基于四个层级的因果任务设置,涵盖了丰富的因果概念。同时,研究人员还细致地将文本模态划分为日常表达(Natural)、抽象表达(Symbolic)和数学表达(Mathematical)三种子态,以考察模型在不同类型模态下的理解能力。该数据集约90%的内容为全新构建,10%来自于现有公开数据集,既能与已有公开结果进行对比,反映评估的有效性,又能避免训练集数据污染问题。
The CaLM Dataset is a novel evaluation dataset jointly constructed by the Shanghai Artificial Intelligence Laboratory, Tongji University, Shanghai Jiao Tong University, Peking University, and SenseTime. It aims to provide a benchmark for assessing causal reasoning capabilities. The dataset comprises over 120,000 entries in both Chinese and English, based on a four-tiered causal task framework that encompasses a wide range of causal concepts. Additionally, researchers have meticulously categorized the text modalities into three subcategories: Natural (everyday expressions), Symbolic (abstract expressions), and Mathematical (mathematical expressions), to evaluate the model's comprehension across different types of modalities. Approximately 90% of the dataset is newly constructed, while 10% is derived from existing public datasets, allowing for comparison with previously published results to validate the assessment's effectiveness and to prevent contamination of the training data.
提供机构:
上海人工智能实验室、同济大学、上海交通大学、北京大学及商汤科技
创建时间:
2024-05-01
原始信息汇总
数据集概述
数据集名称
Causal Evaluation of Language Models (CaLM)
数据集目的
CaLM是首个全面评估语言模型因果推理能力的基准。它建立了一个包含四个模块的基础分类法:因果目标(评估什么)、适应(如何获取结果)、度量(如何衡量结果)和错误(如何分析不良结果)。
数据集内容
- 模型支持:目前支持18种模型,包括baichuan1_7b, baichuan1_chat_13b, baichuan2_chat_7b等。
- 数据集(因果任务):提供92个数据集,存储在
calm_dataset文件夹中,每个数据集代表一个特定的因果目标,支持英语和中文。 - 提示风格(适应):支持多种提示风格,包括基本、对抗性忽略、零样本ICL等,针对不同语言有不同的命名规则。
- 度量和错误:支持7种度量和5种定量错误,用于评估模型的性能和识别潜在问题。
参与方式
用户可以通过提交模型生成的结果来参与项目,需遵循提交指南。此外,欢迎贡献新模型、提示、数据集和度量。
快速开始
- 安装:通过Git克隆项目并创建Python环境。
- 运行模型和保存结果:下载模型或获取API密钥,配置模型参数,运行
run.py脚本。 - 评估结果:使用
evaluate.py脚本评估模型响应,支持核心度量、错误分析和聚合度量。
可用资源
联系方式
如需进一步信息或合作,请联系causalai@pjlab.org.cn。
搜集汇总
数据集介绍

构建方式
CaLM数据集的构建基于一个全面的因果推理评估框架,该框架由四个核心模块组成:因果目标、适应性、度量和错误分析。通过这一框架,数据集涵盖了多种因果推理任务,确保了对语言模型因果推理能力的全面评估。数据集的构建过程中,研究团队精心设计了92个不同的因果任务数据集,这些数据集分布在不同的因果层次和语言环境中,以确保评估的全面性和多样性。
特点
CaLM数据集的显著特点在于其全面性和多样性。首先,数据集包含了92个不同的因果任务,覆盖了从抽象推理到自然语言处理的多个层次。其次,数据集支持多种语言的评估,包括英语和中文,这使得其具有广泛的应用前景。此外,数据集还提供了多种提示风格和评估度量,以适应不同的模型和研究需求。
使用方法
使用CaLM数据集进行评估时,用户首先需要安装相应的软件包并配置环境。随后,用户可以选择特定的模型和提示风格,通过命令行运行模型并保存结果。评估结果可以通过提供的脚本进行分析,包括核心度量和错误分析。对于CaLM Lite版本,用户可以直接在OpenCompass平台上获取模型性能评估。此外,用户还可以通过提交模型生成的结果来参与项目,贡献新的模型、提示、数据集和度量。
背景与挑战
背景概述
近年来,随着自然语言处理技术的迅猛发展,语言模型在理解和生成文本方面取得了显著进展。然而,这些模型在因果推理能力上的表现仍存在显著不足。为填补这一研究空白,由陈思睿、彭博等研究人员组成的团队于2024年5月发布了CaLM数据集,这是首个全面评估语言模型因果推理能力的基准。CaLM数据集通过建立包括因果目标、适应性、度量和错误分析在内的四模块分类法,为语言模型的因果推理能力提供了系统的评估框架。该数据集的发布不仅推动了因果推理在自然语言处理中的研究,也为相关领域的进一步探索提供了坚实的基础。
当前挑战
CaLM数据集在构建过程中面临多重挑战。首先,设计一个能够全面评估语言模型因果推理能力的基准本身就是一项艰巨的任务,需要对因果推理的各个方面进行细致的分类和定义。其次,数据集的构建涉及大量的数据收集和标注工作,确保数据的质量和多样性是另一大挑战。此外,如何有效地评估模型的因果推理能力,特别是在面对复杂的因果场景时,仍是一个开放的问题。最后,随着语言模型的不断发展,如何持续更新和扩展CaLM数据集以保持其前沿性和实用性,也是未来需要解决的重要问题。
常用场景
经典使用场景
CaLM数据集的经典使用场景在于评估语言模型在因果推理能力方面的表现。通过该数据集,研究者可以系统地测试模型在不同因果任务中的适应性、准确性和鲁棒性。例如,研究者可以使用CaLM来评估模型在处理因果发现、因果解释生成等任务时的表现,从而为模型的改进提供数据支持。
衍生相关工作
CaLM数据集的发布催生了多项相关研究工作。例如,基于CaLM的评估结果,研究者提出了新的模型优化策略,以提高模型在因果推理任务中的表现。此外,CaLM还激发了对因果推理在自然语言处理中更深层次应用的探索,推动了该领域的技术进步。
数据集最近研究
最新研究方向
在自然语言处理领域,因果推理能力的评估已成为前沿研究的热点。CaLM数据集作为首个全面评估语言模型因果推理能力的基准,其最新研究方向主要集中在以下几个方面:首先,通过引入CaLM Lite版本,研究人员能够更高效地进行模型性能评估,从而加速因果推理技术的发展。其次,CaLM框架的四个模块——因果目标、适应性、度量和错误分析,为深入理解语言模型的因果推理能力提供了系统化的方法。此外,CaLM数据集的开放性和多样性吸引了众多研究者的参与,推动了新模型、新提示和新度量的不断涌现,进一步丰富了因果推理评估的工具箱。这些研究不仅提升了语言模型在复杂因果场景中的表现,也为人工智能在更广泛领域的应用奠定了基础。
以上内容由遇见数据集搜集并总结生成



