mango-ttic/data
收藏数据集概述
文件夹结构
每个data文件夹内的子文件夹包含用于LLM推理和结果评估的清理文件。以下是data/night文件夹的树结构示例:
bash data/night/ ├── night.actions.json # 提及的动作列表 ├── night.all2all.jsonl # 任意两个位置之间的所有简单路径 ├── night.all_pairs.jsonl # 任意两个位置之间的所有连接性 ├── night.edges.json # 所有边的列表 ├── night.locations.json # 所有位置的列表 └── night.walkthrough # 从Jericho模拟器导出的丰富攻略
变体
70步与全步版本
在我们的论文中,我们使用每个游戏的攻略前70步进行基准测试。我们还提供了data和data-intermediate集合的全步版本。
-
70步
data-70steps.tar.zst: 包含每个攻略的前70步。如果完整攻略少于70步,则使用所有步数。 -
全步
data.tar.zst: 包含每个攻略的所有步数。
仅单词与单词+ID
-
仅单词
data.tar.zst: 节点通过额外的描述性文本来区分名称相似的不同位置。 -
单词 + 对象ID
data-objid.tar.zst: 仅单词版本的变体,节点使用Jericho模拟器中的最小固定名称和对象ID进行标记。 -
单词 + 随机ID
data-randid.tar.zst: Jericho ID版本的变体,其中Jericho对象ID被随机生成的整数替换。
我们主要依赖仅单词版本作为基准,但提供单词+ID版本以适应不同的基准设置。
使用方法
我们以data.tar.zst为例。
1. 从Huggingface下载
直接下载
您可以选择性地下载您选择的特定变体。
通过git
确保已安装git-lfs
bash git lfs install git clone https://huggingface.co/datasets/mango-ttic/data
或者,如果连接到huggingface.co较慢,使用hf-mirror
git clone https://hf-mirror.com/datasets/mango-ttic/data
如果您想在不下载大文件的情况下克隆 - 只克隆它们的指针
bash GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/datasets/mango-ttic/data
或者,如果连接到huggingface.co较慢,使用hf-mirror
GIT_LFS_SKIP_SMUDGE=1 git clone https://hf-mirror.com/datasets/mango-ttic/data
2. 解压缩
由于某些json文件很大,我们使用tar.zst高效地打包数据。
静默解压缩
bash tar -I zstd -d -xf data.tar.zst
或者,详细解压缩
bash zstd -d -c data.tar.zst | tar -xvf -



