EWoK-core-1.0

github2024-05-14 更新2024-05-31 收录

下载链接：

https://github.com/ewok-core/ewok-paper

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含4374个项目，测试了11个核心人类知识领域的基本概念。

This dataset comprises 4,374 items, testing fundamental concepts across 11 core domains of human knowledge.

创建时间：

2024-05-14

原始信息汇总

数据集概述

名称: ewok-core-1.0
描述: 该数据集包含4,374个项目，测试来自11个核心人类知识领域的概念。
用途: 用于评估语言模型对基本世界知识的理解。
内容:
- 合成数据管道和代码，用于复制数据集。
- 评估管道和分析代码，用于复制论文中的所有结果、表格和图表。
- 人类和模型评估结果，供读者探索用于论文的数据。

数据获取

格式: 数据集以密码保护的ZIP文件形式发布。
密码: 密码可在TERMS OF USE (TOU)文档中找到。

使用限制

请勿公开分发任何EWoK材料或其衍生品。
任何用于预训练/训练的使用都需明确承认。

数据集操作

安装: 使用GNU Make和Conda进行自动化构建和环境设置。
运行: 通过简单的命令行操作，可以重建论文材料和结果，包括数据集构建、评估实验和结果分析。

引用信息

bibtex @article{ivanova2024elements, title={Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating basic world knowledge in language models}, author={Anna A. Ivanova and Aalok Sathe and Benjamin Lipkin and Unnathi Kumar and Setayesh Radkani and Thomas H. Clark and Carina Kauf and Jennifer Hu and R. T. Pramod and Gabriel Grand and Vivian Paulun and Maria Ryskina and Ekin Akyurek and Ethan Wilcox and Nafisa Rashid and Leshem Choshen and Roger Levy and Evelina Fedorenko and Joshua Tenenbaum and Jacob Andreas}, journal={arXiv preprint arXiv:2405.09605}, year={2024}, url={https://arxiv.org/abs/2405.09605} }

搜集汇总

数据集介绍

构建方式

EWoK-core-1.0数据集的构建基于一个综合性的合成数据管道，该管道设计用于测试语言模型对11个核心人类知识领域中的基本概念的理解。数据集包含了4,374个测试项，这些测试项是通过精心设计的流程生成的，旨在模拟人类认知中的世界知识。构建过程中，研究团队不仅考虑了数据的多样性和覆盖范围，还确保了数据的质量和一致性，以支持对语言模型的有效评估。

特点

EWoK-core-1.0数据集的显著特点在于其跨领域的广泛覆盖和高度结构化的测试项设计。该数据集涵盖了11个不同的知识领域，确保了对语言模型在多个维度上的评估。此外，数据集采用了密码保护的ZIP文件格式，以防止数据在未经授权的情况下被用于预训练，从而保护了数据的完整性和研究成果的独特性。

使用方法

使用EWoK-core-1.0数据集时，用户可以通过GNU Make自动化构建工具进行设置和运行。首先，用户需要创建一个Conda环境并安装所有依赖项，然后通过执行`make dataset`命令来构建数据集。接着，用户可以选择运行评估实验，通过`make evaluate`命令来生成所有评估结果。最后，通过`make analysis`命令，用户可以分析结果并重现论文中的图表。此外，数据集还支持自定义实验，用户可以在核心仓库中找到更多文档和教程。

背景与挑战

背景概述

EWoK-core-1.0数据集由Anna A. Ivanova等研究人员于2024年创建，旨在通过一个认知启发框架评估语言模型中的基础世界知识。该数据集包含4,374个测试项目，涵盖11个领域的人类核心知识，旨在帮助研究者深入理解语言模型对世界知识的掌握情况。该数据集的开发团队由多位知名学者组成，包括Josh Tenenbaum和Jacob Andreas等，其研究成果对语言模型评估领域具有重要影响。

当前挑战

EWoK-core-1.0数据集的主要挑战在于其构建过程中需确保数据的安全性和隐私保护，以防止数据被无意中用于语言模型的预训练。此外，数据集的复杂性和多样性要求研究者在评估语言模型时需设计高效的实验方法和分析工具。另一个挑战是如何在保持数据开放性的同时，防止其被滥用或误用，这需要制定严格的许可协议和使用条款。

常用场景

经典使用场景

EWoK-core-1.0数据集的经典使用场景主要集中在语言模型的世界知识评估。该数据集包含了4,374个测试项，涵盖了11个核心人类知识领域，旨在通过这些测试项评估语言模型对基本世界知识的理解能力。研究者可以通过该数据集对语言模型进行基准测试，分析其在不同知识领域的表现，从而为模型的改进提供依据。

衍生相关工作

基于EWoK-core-1.0数据集，研究者们开发了多种扩展工具和方法，进一步推动了语言模型评估领域的发展。例如，有研究提出了基于该数据集的自动化评估框架，用于大规模语言模型的性能测试。此外，还有工作探讨了如何将EWoK数据集与其他认知任务相结合，以更全面地评估模型的综合能力。

数据集最近研究