LINGO Dataset

github2024-12-21 更新2024-12-23 收录

下载链接：

https://github.com/mileret/lingo-release

下载链接

链接失效反馈

官方服务：

资源简介：

LINGO数据集包含室内场景的占用网格、用于模型训练的动作用信息、人体姿态参数、场景名称、文本注释等。数据集以镜像形式提供，并包含用于训练和测试的多种文件和文件夹。

The LINGO Dataset contains occupancy grids of indoor scenes, motion and action information for model training, human pose parameters, scene names, text annotations, and other related content. This dataset is provided in the form of a mirror copy, and includes various files and folders for training and testing purposes.

创建时间：

2024-12-21

原始信息汇总

LINGO Dataset

数据集下载

数据集可以从Google Drive下载。

数据集文件和文件夹说明

Scene (文件夹): 包含LINGO数据集中室内场景的占用网格，每个文件名表示一个场景。场景进行了镜像增强。
Scene_vis (文件夹): 包含另一组用于测试模型和可视化动作的室内场景占用网格。
language_motion_dict (文件夹): 包含用于训练模型的每个动作片段的包装信息。
human_pose.npy: 包含一个(N x 63)数组，每行对应MoCap数据的一个帧的63维SMPL-X body_pose参数。数据是所有动作片段的串联。
human_orient.npy: 包含一个(N x 3)数组，对应SMPL-X的global_orient参数。
transl_aligned.npy: 包含一个(N x 3)数组，对应SMPL-X的transl参数。
human_joints_aligned.npy: 包含一个(N x 28 x 3)数组，对应SMPL-X的选定关节的3D位置（y轴向上）。
scene_name.pkl: 包含一个(N, )列表，对应每个帧的场景名称。
start_idx.npy: 包含一个(M x 3)数组，对应每个动作片段的起始帧索引。
end_idx.npy: 包含一个(M x 3)数组，对应每个动作片段的结束帧索引。
text_aug.pkl: 包含一个(M, )列表，对应每个动作片段的文本注释。
left_hand_inter_frame.npy: 包含一个(M, )数组，存储左手机接触发生的帧ID，对于没有左手机接触的动作片段，包含-1值。
right_hand_inter_frame.npy: 包含一个(M, )数组，存储右手接触发生的帧ID，对于没有右手接触的动作片段，包含-1值。
clip_features.npy: 包含LINGO数据集中文本注释的预处理CLIP特征。
text2features_idx.pkl: 存储一个字典，将文本注释映射到其对应的CLIP特征向量。
norm_inter_and_loco__16frames.npy: 包含一个(2, 3)数组，包含用于归一化关节位置的x、y和z轴的关节坐标范围。

注释

N表示LINGO数据集中的总帧数，M表示动作片段的数量。该数据集以镜像形式提供。

搜集汇总

数据集介绍

构建方式

LINGO数据集的构建基于室内场景中的自主角色与场景交互合成任务，通过整合多模态数据，包括场景占用网格、人体姿态参数、文本指令等，形成了一个综合性的数据集。具体而言，数据集包含了室内场景的占用网格（Scene和Scene_vis文件夹），人体姿态参数（human_pose.npy、human_orient.npy等），以及每个动作片段的文本描述（text_aug.pkl）。此外，数据集还通过镜像处理进行了数据增强，确保了数据的多样性和丰富性。

使用方法

使用LINGO数据集时，用户首先需要从Google Drive下载数据集，并确保安装了Python 3.8及以上版本以及指定的Python包。数据集的训练和推理过程可以通过运行提供的脚本实现，训练脚本会自动加载数据集并根据配置文件进行模型训练。推理阶段，用户可以通过修改Blender中的输入参数（如文本描述、起始位置等）来生成特定的人体动作，并通过Blender进行可视化展示。

背景与挑战

背景概述

LINGO数据集由SIGGRAPH Asia 2024会议上的研究项目‘Autonomous Character-Scene Interaction Synthesis from Text Instruction’提出，旨在通过文本指令实现自主角色与场景的交互合成。该数据集由Nan Jiang等研究人员创建，主要用于训练和测试基于文本指令的室内场景中人体运动合成模型。LINGO数据集的核心研究问题是如何通过自然语言描述生成复杂的人体运动，并将其与室内场景进行有效交互。该数据集的发布对计算机图形学、人机交互以及虚拟现实等领域具有重要影响，推动了基于文本的动态场景生成技术的发展。

当前挑战

LINGO数据集在构建过程中面临多项挑战。首先，如何从自然语言描述中准确提取运动信息并生成符合场景约束的人体运动是一个复杂的问题。其次，数据集的构建需要处理大量的运动捕捉数据，并将其与场景信息进行对齐，确保运动与场景的交互自然且合理。此外，数据集的更新和扩展也面临挑战，需不断引入新的场景和运动数据以提升模型的泛化能力。最后，如何在保持数据多样性的同时，确保数据的质量和一致性也是该数据集面临的重要挑战。

常用场景

经典使用场景

LINGO数据集在自主角色与场景交互合成领域中展现了其经典应用场景。该数据集通过结合文本指令与室内场景的占用网格，能够生成复杂的人类动作序列，尤其是在需要精确控制角色在特定场景中执行任务的场景下，如虚拟现实中的角色行为模拟、游戏开发中的NPC行为设计等。通过LINGO数据集，研究者可以训练模型以生成符合文本描述的逼真动作，从而实现高度交互性的虚拟环境。

解决学术问题

LINGO数据集解决了在文本指令驱动下生成复杂角色与场景交互动作的学术难题。传统方法在处理此类任务时往往面临动作生成的多样性和准确性不足的问题，而LINGO通过提供丰富的动作数据和场景信息，使得模型能够更好地理解并生成符合文本描述的动作序列。这一突破不仅推动了计算机图形学和人工智能的交叉研究，还为虚拟现实、游戏设计等领域的技术进步提供了重要支持。

实际应用

在实际应用中，LINGO数据集被广泛应用于虚拟现实、游戏开发、影视制作等领域。例如，在虚拟现实中，该数据集可以帮助构建更加逼真和交互性强的虚拟角色，提升用户体验；在游戏开发中，开发者可以利用LINGO生成的动作数据来设计复杂的NPC行为，增强游戏的沉浸感；在影视制作中，LINGO可以用于生成复杂的角色动作，减少动作捕捉的成本和时间。

数据集最近研究