CaLM Dataset - 多样化的因果评测数据集|因果推理数据集|测评数据集数据集

github2024-05-31 收录

因果推理

测评数据集

下载链接：

https://github.com/OpenCausaLab/CaLM

下载链接

链接失效反馈

资源简介：

CaLM Dataset是上海人工智能实验室、同济大学、上海交通大学、北京大学及商汤科技联合构建的一套全新的评测数据集，旨在使因果推理能力评估有“考题”可循。该数据集包含超过12万条中英文数据，基于四个层级的因果任务设置，涵盖了丰富的因果概念。同时，研究人员还细致地将文本模态划分为日常表达（Natural）、抽象表达（Symbolic）和数学表达（Mathematical）三种子态，以考察模型在不同类型模态下的理解能力。该数据集约90%的内容为全新构建，10%来自于现有公开数据集，既能与已有公开结果进行对比，反映评估的有效性，又能避免训练集数据污染问题。

The CaLM Dataset is a novel evaluation dataset jointly constructed by the Shanghai Artificial Intelligence Laboratory, Tongji University, Shanghai Jiao Tong University, Peking University, and SenseTime. It aims to provide a benchmark for assessing causal reasoning capabilities. The dataset comprises over 120,000 entries in both Chinese and English, based on a four-tiered causal task framework that encompasses a wide range of causal concepts. Additionally, researchers have meticulously categorized the text modalities into three subcategories: Natural (everyday expressions), Symbolic (abstract expressions), and Mathematical (mathematical expressions), to evaluate the model's comprehension across different types of modalities. Approximately 90% of the dataset is newly constructed, while 10% is derived from existing public datasets, allowing for comparison with previously published results to validate the assessment's effectiveness and to prevent contamination of the training data.

提供机构：

上海人工智能实验室、同济大学、上海交通大学、北京大学及商汤科技

创建时间：

2024-05-01

原始信息汇总

数据集概述

数据集名称

Causal Evaluation of Language Models (CaLM)

数据集目的

CaLM是首个全面评估语言模型因果推理能力的基准。它建立了一个包含四个模块的基础分类法：因果目标（评估什么）、适应（如何获取结果）、度量（如何衡量结果）和错误（如何分析不良结果）。

数据集内容

模型支持：目前支持18种模型，包括baichuan1_7b, baichuan1_chat_13b, baichuan2_chat_7b等。
数据集（因果任务）：提供92个数据集，存储在calm_dataset文件夹中，每个数据集代表一个特定的因果目标，支持英语和中文。
提示风格（适应）：支持多种提示风格，包括基本、对抗性忽略、零样本ICL等，针对不同语言有不同的命名规则。
度量和错误：支持7种度量和5种定量错误，用于评估模型的性能和识别潜在问题。

参与方式

用户可以通过提交模型生成的结果来参与项目，需遵循提交指南。此外，欢迎贡献新模型、提示、数据集和度量。

快速开始

安装：通过Git克隆项目并创建Python环境。
运行模型和保存结果：下载模型或获取API密钥，配置模型参数，运行run.py脚本。
评估结果：使用evaluate.py脚本评估模型响应，支持核心度量、错误分析和聚合度量。

可用资源

模型详情：模型详情
任务概览：任务
提交指南：提交指南

联系方式

如需进一步信息或合作，请联系causalai@pjlab.org.cn。

AI搜集汇总

数据集介绍

构建方式

CaLM数据集的构建基于一个全面的因果推理评估框架，该框架由四个核心模块组成：因果目标、适应性、度量和错误分析。通过这一框架，数据集涵盖了多种因果推理任务，确保了对语言模型因果推理能力的全面评估。数据集的构建过程中，研究团队精心设计了92个不同的因果任务数据集，这些数据集分布在不同的因果层次和语言环境中，以确保评估的全面性和多样性。

特点

CaLM数据集的显著特点在于其全面性和多样性。首先，数据集包含了92个不同的因果任务，覆盖了从抽象推理到自然语言处理的多个层次。其次，数据集支持多种语言的评估，包括英语和中文，这使得其具有广泛的应用前景。此外，数据集还提供了多种提示风格和评估度量，以适应不同的模型和研究需求。

使用方法

使用CaLM数据集进行评估时，用户首先需要安装相应的软件包并配置环境。随后，用户可以选择特定的模型和提示风格，通过命令行运行模型并保存结果。评估结果可以通过提供的脚本进行分析，包括核心度量和错误分析。对于CaLM Lite版本，用户可以直接在OpenCompass平台上获取模型性能评估。此外，用户还可以通过提交模型生成的结果来参与项目，贡献新的模型、提示、数据集和度量。

背景与挑战

背景概述

近年来，随着自然语言处理技术的迅猛发展，语言模型在理解和生成文本方面取得了显著进展。然而，这些模型在因果推理能力上的表现仍存在显著不足。为填补这一研究空白，由陈思睿、彭博等研究人员组成的团队于2024年5月发布了CaLM数据集，这是首个全面评估语言模型因果推理能力的基准。CaLM数据集通过建立包括因果目标、适应性、度量和错误分析在内的四模块分类法，为语言模型的因果推理能力提供了系统的评估框架。该数据集的发布不仅推动了因果推理在自然语言处理中的研究，也为相关领域的进一步探索提供了坚实的基础。

当前挑战

CaLM数据集在构建过程中面临多重挑战。首先，设计一个能够全面评估语言模型因果推理能力的基准本身就是一项艰巨的任务，需要对因果推理的各个方面进行细致的分类和定义。其次，数据集的构建涉及大量的数据收集和标注工作，确保数据的质量和多样性是另一大挑战。此外，如何有效地评估模型的因果推理能力，特别是在面对复杂的因果场景时，仍是一个开放的问题。最后，随着语言模型的不断发展，如何持续更新和扩展CaLM数据集以保持其前沿性和实用性，也是未来需要解决的重要问题。

常用场景

经典使用场景

CaLM数据集的经典使用场景在于评估语言模型在因果推理能力方面的表现。通过该数据集，研究者可以系统地测试模型在不同因果任务中的适应性、准确性和鲁棒性。例如，研究者可以使用CaLM来评估模型在处理因果发现、因果解释生成等任务时的表现，从而为模型的改进提供数据支持。

衍生相关工作

CaLM数据集的发布催生了多项相关研究工作。例如，基于CaLM的评估结果，研究者提出了新的模型优化策略，以提高模型在因果推理任务中的表现。此外，CaLM还激发了对因果推理在自然语言处理中更深层次应用的探索，推动了该领域的技术进步。

数据集最近研究

最新研究方向

在自然语言处理领域，因果推理能力的评估已成为前沿研究的热点。CaLM数据集作为首个全面评估语言模型因果推理能力的基准，其最新研究方向主要集中在以下几个方面：首先，通过引入CaLM Lite版本，研究人员能够更高效地进行模型性能评估，从而加速因果推理技术的发展。其次，CaLM框架的四个模块——因果目标、适应性、度量和错误分析，为深入理解语言模型的因果推理能力提供了系统化的方法。此外，CaLM数据集的开放性和多样性吸引了众多研究者的参与，推动了新模型、新提示和新度量的不断涌现，进一步丰富了因果推理评估的工具箱。这些研究不仅提升了语言模型在复杂因果场景中的表现，也为人工智能在更广泛领域的应用奠定了基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录

腾讯词向量（Tencent AI Lab Embedding Corpus for Chinese Words and Phrases）

这些语料库的最新版本提供了100维度和200维度的向量表示形式，也就是嵌入，适用于中文和英文。具体来说，有超过1200万个中文单词和短语以及650万个英语单词和短语，它们是在大规模高质量数据上进行预先培训的。这些向量捕获单词和短语的语义含义，可以广泛应用于许多下游任务 (例如，命名实体识别和文本分类) 以及进一步的研究中。

OpenDataLab 收录