five

BYTESIZED32

收藏
arXiv2023-10-24 更新2024-07-24 收录
下载链接:
https://github.com/cognitiveailab/BYTESIZED32
下载链接
链接失效反馈
官方服务:
资源简介:
BYTESIZED32是由亚利桑那大学和微软研究蒙特利尔共同创建的数据集,包含32个以PYTHON代码形式表达的推理任务文本游戏,总计2万行代码。该数据集旨在通过生成文本游戏来测试语言模型在科学和常识推理任务上的能力。每个游戏围绕一个具体的常识任务,如使用洗碗机洗碗或搭建篝火,需要数百行代码来模拟。数据集适用于上下文学习或生成微调模型,并开发了一套自动化指标来评估生成游戏的质量,包括代码技术性、内容完整性、物理世界建模准确性和可赢性。

BYTESIZED32 is a dataset co-created by the University of Arizona and Microsoft Research Montreal. It contains 32 reasoning task-based text games expressed in Python code, with a total of 20,000 lines of code. This dataset is designed to evaluate the performance of language models on scientific and commonsense reasoning tasks through text game generation. Each game centers on a specific commonsense task, such as washing dishes with a dishwasher or building a campfire, and requires hundreds of lines of code for simulation. The dataset is applicable to in-context learning and fine-tuning of language models, and a set of automated metrics has been developed to assess the quality of the generated games, including code technicality, content completeness, physical world modeling accuracy, and winability.
提供机构:
亚利桑那大学
创建时间:
2023-05-24
原始信息汇总

BYTESIZED32

Byte-sized text games for code generation tasks on virtual environments.

数据集描述

BYTESIZED32 数据集包含用于代码生成任务的文本游戏数据。该数据集支持三种消融实验:objectactiondistractor

数据文件

  • data/action_train.csvdata/distractor_train.csvdata/object_train.csv:描述每个游戏中存在的动作、干扰项和对象。1表示存在,空条目表示不存在。
  • data/action_test.csv:第二列是一个动作,用于寻找具有相同动作的类似提示游戏。
  • data/distractor_test.csv:1表示需要干扰项,0表示不需要。
  • data/object_test.csv:2表示寻找具有该对象的提示游戏,1表示该对象也需要,空条目表示该对象可能不需要。

实验文件生成

通过运行以下命令生成实验文件: bash python scripts/generate_experiment_file.py action python scripts/generate_experiment_file.py distractor python scripts/generate_experiment_file.py object

生成的文件为 experiment_action.csvexperiment_distractor.csvexperiment_object.csv

代码生成

使用生成的实验文件运行代码生成: bash python scripts/run_code_generation.py data/experiment_action.csv --output-folder results/run/ python scripts/run_code_generation.py data/experiment_distractor.csv --output-folder results/run/ python scripts/run_code_generation.py data/experiment_object.csv --output-folder results/run/

生成的游戏、原始LLM提示和响应保存在 results/{datetime}/generated_games/ 文件夹中。

代码反射

使用以下脚本对生成的游戏进行自我反思和改进: bash python scripts/run_code_reflection.py --game-folder results/run/generated_games/ --revision-folder results/run/revised_games/

自动评估

提供自动评估脚本,评估指标包括:

  • Technical Validity:生成的游戏是否为有效的Python代码,是否包含预期的类和方法。
  • Specification Compliance:生成的游戏是否包含实验文件中指定的动作、对象和干扰项。
  • Physical Reality Alignment:生成的游戏是否模拟了物理世界的约束。
  • Game Winnability:生成的游戏是否可赢,即是否存在导致胜利状态的动作序列。

评估脚本: bash python scripts/run_code_evaluation.py --game-folder results/run/revised_games/ --results-file results/run/results.json

引用

如果使用该数据集,请引用以下论文:

@article{Wang2023ByteSized32AC, title={ByteSized32: A Corpus and Challenge Task for Generating Task-Specific World Models Expressed as Text Games}, author={Ruoyao Wang and Graham Todd and Xingdi Yuan and Ziang Xiao and Marc-Alexandre C{^o}t{e} and Peter Alexander Jansen}, journal={ArXiv}, year={2023}, volume={abs/2305.14879}, url={https://api.semanticscholar.org/CorpusID:258865971} }

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理与代码生成交叉领域,BYTESIZED32数据集的构建体现了对显式、可解释世界模型生成的前沿探索。该数据集通过精心设计的高度模板化Python文本游戏实现,每个游戏围绕特定常识推理任务展开,如使用洗碗机清洗餐具或生起篝火。构建过程采用分层架构,将模拟环境分解为对象类与子类(如设备与容器),并实例化为具体游戏对象。每个游戏包含500至1000行代码及详细注释,总计32个游戏约2万行代码,其顶部均附有结构化任务规范,涵盖任务描述、关键对象、行动、干扰项及高层解决方案,为模型提供清晰的代码生成框架。
特点
BYTESIZED32数据集的核心特征在于其高度结构化与可扩展性。每个游戏采用统一的API架构,继承自OpenAI Gym规范,包含世界初始化、有效行动生成、行动执行与评分等核心成员函数。数据集突出表现为对常识推理任务的深度建模,平均每个游戏包含9.8个行动动词、306.6个有效行动及12.8步专家路径长度。其独特之处在于将复杂世界知识编码为可交互的文本模拟,同时配备自动化评估指标,涵盖技术有效性、规范符合性、物理现实对齐与可获胜性,为生成模型的性能提供了多维度、可量化的评估基准。
使用方法
该数据集主要应用于单样本上下文学习范式,以推动语言模型生成任务特定世界模型的能力。使用方法涉及将单个高度模板化的参考游戏作为提示,结合目标游戏的任务规范,引导模型生成数百行可运行Python代码。实验表明,GPT-4模型在此框架下可生成28%的可运行新游戏,通过基于Python解释器错误的自我反思机制,可获胜性提升至57%。研究人员可利用其配套的自动化评估工具包,对生成游戏的技术有效性、规范符合性及物理现实对齐进行高效评估,从而系统探究语言模型在代码生成与世界建模交叉领域的潜力与局限。
背景与挑战
背景概述
BYTESIZED32数据集于2023年由亚利桑那大学、微软研究院蒙特利尔、纽约大学及约翰斯·霍普金斯大学的研究团队联合创建,旨在探索语言模型生成显式、可解释且交互式的世界模型能力。该数据集以文本游戏形式呈现,包含32个聚焦常识与科学推理任务的Python代码库,总计约2万行代码。其核心研究问题在于推动语言模型在代码生成与世界建模交叉领域的发展,通过单样本上下文学习生成可运行的任务特定模拟环境,为评估模型对物理世界的理解提供了形式化与可解释的新途径。
当前挑战
BYTESIZED32数据集面临的挑战主要体现在两个方面:其一,在解决领域问题方面,生成高保真度的任务模拟环境存在显著困难,例如仅51%的生成游戏能准确建模物理世界约束,且游戏可通关率低至38%,反映出语言模型将隐式知识转化为显式代码的局限性;其二,在构建过程中,评估生成仿真的质量极具挑战性,需开发自动化指标以替代耗时的人工评估,同时确保这些指标在技术有效性、任务规范遵循性及物理现实对齐方面与专家评分高度一致。
常用场景
经典使用场景
在自然语言处理与代码生成的交叉领域,BYTESIZED32数据集为评估大型语言模型生成显式、可解释的世界模型能力提供了基准。该数据集通过将常识推理任务编码为数百行Python代码的文本游戏,构建了一个高度模板化的语料库。其经典使用场景在于支持单样本上下文学习,研究者通过提供一个示例游戏和目标任务描述,引导模型生成结构完整、可运行的交互式模拟环境,从而系统检验模型对物理世界规则和任务逻辑的形式化表达能力。
解决学术问题
BYTESIZED32致力于解决语言模型世界知识的形式化表征与评估难题。传统上,模型隐含的常识知识难以被直接观测和量化,而该数据集通过代码生成任务,将模型内部知识转化为可执行、可验证的模拟程序。这为研究社区提供了衡量模型物理常识准确性、任务规划完整性以及程序合成可靠性的标准化工具。其意义在于推动语言模型从隐式知识存储向显式、结构化世界建模的范式转变,并为可解释人工智能的发展奠定了实证基础。
衍生相关工作
围绕BYTESIZED32衍生的经典工作主要集中在文本游戏生成、代码自我修复以及自动化评估体系的拓展。例如,研究借鉴其模板化架构,开发了面向科学推理任务的扩展数据集,如ScienceWorld,将模拟领域延伸至学科教育。同时,其提出的物理现实对齐、可玩性等自动化评估指标,启发了后续研究对语言模型输出进行更细粒度的质量监控。此外,该工作推动的自我反思范式被广泛应用于代码纠错、程序迭代优化等场景,促进了大型语言模型在复杂程序合成任务中的稳健性提升。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作