mango-ttic/data-intermediate
收藏数据集中间版本
文件夹结构
每个 data-intermediate 文件夹包含数据标注和生成过程中使用的所有中间文件。以下是游戏 data-intermediate/night 的树结构:
bash data-intermediate/night/ ├── night.all2all.json # 任意两个节点之间的所有简单路径 ├── night.all_pairs.json # 任意两个节点之间的所有连接性 ├── night.anno2code.json # 标注到代码名称的映射 ├── night.code2anno.json # 代码名称到标注的映射 ├── night.edges.json # 所有边的列表 ├── night.map.human # 从人工标注导出的人工地图 ├── night.map.machine # 从导出的动作序列导出的机器地图 ├── night.map.reversed # 从人工标注地图导出的反向地图 ├── night.moves # 提到的动作列表 ├── night.nodes.json # 所有节点的列表 ├── night.valid_moves.csv # 人工标注 ├── night.walkthrough # 从Jericho模拟器导出的丰富攻略 └── night.walkthrough_acts # 从Jericho模拟器导出的动作序列
变体
70步与全步版本
在我们的论文中,我们使用每个游戏攻略的前70步进行基准测试。我们还提供了 data 和 data-intermediate 集合的全步版本。
-
70步
data-intermediate-70steps.tar.zst:包含每个攻略的前70步。如果完整攻略少于70步,则使用所有步骤。 -
全步
data-intermediate.tar.zst:包含每个攻略的所有步骤。
仅单词与单词+ID
-
仅单词
data-intermediate.tar.zst:节点通过额外的描述性文本来区分名称相似的不同位置。 -
单词 + 对象ID
data-intermediate-objid.tar.zst:仅单词版本的变体,节点使用Jericho模拟器中的最小固定名称和对象ID进行标注。 -
单词 + 随机ID
data-intermediate-randid.tar.zst:Jericho ID版本的变体,其中Jericho对象ID被随机生成的整数替换。
我们主要依赖仅单词版本进行基准测试,但提供单词+ID版本以适应不同的基准测试设置。
如何使用
我们以 data-intermediate.tar.zst 为例。
1. 从Huggingface下载
直接下载
您可以选择性地下载您选择的特定变体。
通过git
确保您已安装 git-lfs
bash git lfs install git clone https://huggingface.co/datasets/mango-ttic/data-intermediate
或者,如果您的连接到huggingface.co较慢,使用hf-mirror
git clone https://hf-mirror.com/datasets/mango-ttic/data-intermediate
如果您想在不下载大文件的情况下克隆 - 仅克隆它们的指针
bash GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/datasets/mango-ttic/data-intermediate
或者,如果您的连接到huggingface.co较慢,使用hf-mirror
GIT_LFS_SKIP_SMUDGE=1 git clone https://hf-mirror.com/datasets/mango-ttic/data-intermediate
2. 解压缩
由于某些json文件很大,我们使用tar.zst高效地打包数据。
静默解压缩
bash tar -I zstd -d -xf data-intermediate.tar.zst
或者,详细解压缩
bash zstd -d -c data-intermediate.tar.zst | tar -xvf -



