CaLM Dataset - 多样化的因果评测数据集|因果推理数据集|测评数据集数据集
收藏数据集概述
数据集名称
Causal Evaluation of Language Models (CaLM)
数据集目的
CaLM是首个全面评估语言模型因果推理能力的基准。它建立了一个包含四个模块的基础分类法:因果目标(评估什么)、适应(如何获取结果)、度量(如何衡量结果)和错误(如何分析不良结果)。
数据集内容
- 模型支持:目前支持18种模型,包括baichuan1_7b, baichuan1_chat_13b, baichuan2_chat_7b等。
- 数据集(因果任务):提供92个数据集,存储在
calm_dataset
文件夹中,每个数据集代表一个特定的因果目标,支持英语和中文。 - 提示风格(适应):支持多种提示风格,包括基本、对抗性忽略、零样本ICL等,针对不同语言有不同的命名规则。
- 度量和错误:支持7种度量和5种定量错误,用于评估模型的性能和识别潜在问题。
参与方式
用户可以通过提交模型生成的结果来参与项目,需遵循提交指南。此外,欢迎贡献新模型、提示、数据集和度量。
快速开始
- 安装:通过Git克隆项目并创建Python环境。
- 运行模型和保存结果:下载模型或获取API密钥,配置模型参数,运行
run.py
脚本。 - 评估结果:使用
evaluate.py
脚本评估模型响应,支持核心度量、错误分析和聚合度量。
可用资源
联系方式
如需进一步信息或合作,请联系causalai@pjlab.org.cn。

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)
这些语料库的最新版本提供了100维度和200维度的向量表示形式,也就是嵌入,适用于中文和英文。具体来说,有超过1200万个中文单词和短语以及650万个英语单词和短语,它们是在大规模高质量数据上进行预先培训的。这些向量捕获单词和短语的语义含义,可以广泛应用于许多下游任务 (例如,命名实体识别和文本分类) 以及进一步的研究中。
OpenDataLab 收录