ewok-core

github2024-05-14 更新2024-05-31 收录

语言模型评估

知识推理

数据链接：

https://github.com/ewok-core/ewok 数据链接链接失效反馈

官方服务：

资源简介：

EWoK是一个评估大型语言模型中基本世界知识和推理的框架。

EWoK is a framework designed to evaluate the fundamental world knowledge and reasoning capabilities within large language models.

创建时间：

2024-05-14

原始信息汇总

数据集概述

名称： EWoK (Elements of World Knowledge)

版本： v1.0

描述： EWoK是一个用于评估大型语言模型（LLMs）中基本世界知识和推理能力的框架。该数据集包含4,374个项目，测试来自11个核心人类知识领域的概念。

内容：

最新版本的合成数据管道和代码，用于复制当前版本的ewok-core。
文档和教程，支持用户扩展EWoK，包括添加自己的概念、领域等。

使用限制：

所有材料（代码除外）以密码保护的ZIP文件形式分发。
使用EWoK材料进行预训练/训练需要明确承认。

获取方式：

密码保护的ZIP文件的密码在TERMS OF USE文档中提供。

支持与扩展：

提供自动化构建，使用GNU Make。
支持通过命令行界面生成新的数据集变体和运行新实验。

教程与文档：

GLOSSARY.md 和 TUTORIAL.md 提供了关于EWoK组件和如何添加新概念的详细指南。

引用信息： bibtex @article{ivanova2024elements, author = {Ivanova, Anna and Sathe, Aalok and Lipkin, Benjamin and Kumar, Unnathi and Radkani, Setayesh and Clark, Thomas H and Kauf, Carina and Hu, Jennifer and RT, Pramod and Grand, Gabriel and Paulun, Vivian and Ryskina, Maria and Akyurek, Ekin and Wilcox, Ethan and Rashid, Nafisa and Choshen, Leshem and Levy, Roger and Fedorenko, Evelina and Tenenbaum, Josh and Andreas, Jacob}, title = {Elements of World Knowledge (EWoK): A cognition-inspired framework for evaluating basic world knowledge in language models}, journal = {arXiv}, year = {2024}, }

搜集汇总

数据集介绍

构建方式

EWoK数据集的构建基于一个合成数据管道，该管道通过自动化流程生成测试语言模型中基本世界知识的4,374个项目。这些项目涵盖了11个核心人类知识领域，旨在评估和扩展语言模型对世界知识的理解和推理能力。数据集的构建过程包括从概念、上下文和目标生成模板，并通过特定的命令行接口进行数据集的编译和扩展。

特点

EWoK数据集的显著特点在于其多领域覆盖和高度可扩展性。该数据集不仅涵盖了11个核心知识领域，还通过灵活的命令行接口支持用户自定义实验和数据集扩展。此外，数据集的发布形式为密码保护的ZIP文件，以防止未经授权的使用和潜在的预训练数据泄露，确保了数据的安全性和使用的合规性。

使用方法

使用EWoK数据集首先需要通过GNU Make工具进行环境设置和依赖安装，随后可以通过简单的命令行操作生成当前版本的`ewok-core`数据集。用户还可以利用提供的命令行接口进行自定义实验，生成新的数据集变体。扩展数据集时，用户可以通过查阅GLOSSARY.md和TUTORIAL.md文档，了解如何添加新的概念和领域，从而进一步丰富和定制数据集。

背景与挑战

背景概述

EWoK（Elements of World Knowledge）数据集由Anna A. Ivanova等研究人员于2024年创建，旨在评估大型语言模型（LLMs）中基础世界知识的理解和推理能力。该数据集的核心研究问题聚焦于如何有效评估语言模型对人类核心知识的掌握程度，涵盖了11个知识领域，包含4,374个测试项目。EWoK的开发不仅为语言模型的评估提供了新的框架，还为相关领域的研究提供了宝贵的资源，推动了认知科学和人工智能的交叉研究。

当前挑战

EWoK数据集在构建过程中面临多项挑战。首先，如何确保数据集能够全面覆盖人类基础知识的多个领域，同时保持数据的多样性和代表性，是一个复杂的问题。其次，为了防止数据被意外用于语言模型的预训练，数据集采用了密码保护的ZIP文件格式，这增加了数据分发的复杂性。此外，如何在保护数据的同时，确保研究社区能够有效利用该资源，也是一个重要的挑战。最后，数据集的扩展性和可定制性要求用户能够轻松添加新的概念和领域，这对数据集的设计和文档提出了更高的要求。

常用场景

经典使用场景

EWoK数据集的经典使用场景主要集中在评估和提升大型语言模型（LLMs）的基本世界知识和推理能力。通过该数据集，研究者可以系统地测试语言模型在多个领域中的知识掌握情况，如物理、生物、社会规范等。这种评估不仅有助于识别模型的知识盲点，还能为模型的进一步优化提供方向。

解决学术问题

EWoK数据集解决了在语言模型研究中长期存在的基本世界知识评估难题。传统方法往往依赖于人工设计的测试集，难以全面覆盖多领域的知识。EWoK通过提供一个结构化的框架和丰富的数据集，使得研究者能够更系统、更全面地评估模型的知识理解能力，从而推动了语言模型在知识推理方面的研究进展。

衍生相关工作

基于EWoK数据集，研究者们已经开展了一系列相关工作，包括开发新的知识评估方法、设计更高效的模型训练策略以及探索多模态知识融合等。这些工作不仅丰富了语言模型的评估手段，还为未来的知识表示和推理研究提供了新的思路和工具。

以上内容由遇见数据集搜集并总结生成