five

mango-ttic/data

收藏
Hugging Face2024-05-27 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/mango-ttic/data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了用于LLM推理和结果评估的清理文件。数据集分为不同的版本,包括70步和全步版本,以及仅单词和单词+ID版本。70步版本包含每个游戏的前70步,而全步版本包含所有步骤。仅单词版本通过附加描述性文本来区分具有相似名称的不同位置,而单词+ID版本则使用Jericho模拟器中的对象ID或随机生成的整数来标记节点。数据集的使用部分详细介绍了如何下载和解压缩数据。
提供机构:
mango-ttic
原始信息汇总

数据集概述

文件夹结构

每个data文件夹内的子文件夹包含用于LLM推理和结果评估的清理文件。以下是data/night文件夹的树结构示例:

bash data/night/ ├── night.actions.json # 提及的动作列表 ├── night.all2all.jsonl # 任意两个位置之间的所有简单路径 ├── night.all_pairs.jsonl # 任意两个位置之间的所有连接性 ├── night.edges.json # 所有边的列表 ├── night.locations.json # 所有位置的列表 └── night.walkthrough # 从Jericho模拟器导出的丰富攻略

变体

70步与全步版本

在我们的论文中,我们使用每个游戏的攻略前70步进行基准测试。我们还提供了datadata-intermediate集合的全步版本。

  • 70步 data-70steps.tar.zst: 包含每个攻略的前70步。如果完整攻略少于70步,则使用所有步数。

  • 全步 data.tar.zst: 包含每个攻略的所有步数。

仅单词与单词+ID

  • 仅单词 data.tar.zst: 节点通过额外的描述性文本来区分名称相似的不同位置。

  • 单词 + 对象ID data-objid.tar.zst: 仅单词版本的变体,节点使用Jericho模拟器中的最小固定名称和对象ID进行标记。

  • 单词 + 随机ID data-randid.tar.zst: Jericho ID版本的变体,其中Jericho对象ID被随机生成的整数替换。

我们主要依赖仅单词版本作为基准,但提供单词+ID版本以适应不同的基准设置。

使用方法

我们以data.tar.zst为例。

1. 从Huggingface下载

直接下载

您可以选择性地下载您选择的特定变体。

通过git

确保已安装git-lfs

bash git lfs install git clone https://huggingface.co/datasets/mango-ttic/data

或者,如果连接到huggingface.co较慢,使用hf-mirror

git clone https://hf-mirror.com/datasets/mango-ttic/data

如果您想在不下载大文件的情况下克隆 - 只克隆它们的指针

bash GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/datasets/mango-ttic/data

或者,如果连接到huggingface.co较慢,使用hf-mirror

GIT_LFS_SKIP_SMUDGE=1 git clone https://hf-mirror.com/datasets/mango-ttic/data

2. 解压缩

由于某些json文件很大,我们使用tar.zst高效地打包数据。

静默解压缩

bash tar -I zstd -d -xf data.tar.zst

或者,详细解压缩

bash zstd -d -c data.tar.zst | tar -xvf -

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作