StableText2Lego|LEGO设计数据集|结构稳定性数据集
收藏数据集概述:Generating Physically Stable and Buildable LEGO® Designs from Text
基本信息
- 标题: Generating Physically Stable and Buildable LEGO® Designs from Text
- 作者: Ava Pun*, Kangle Deng*, Ruixuan Liu*, Deva Ramanan, Changliu Liu, Jun-Yan Zhu (* denotes equal contribution)
- 机构: Carnegie Mellon University
- 论文链接: arXiv
- 代码: 提供
- Demo: 提供
数据集描述
- 数据集名称: StableText2Lego
- 规模: 超过47,000个LEGO结构,涵盖28,000个独特的3D对象
- 数据生成流程:
- 从ShapeNetCore网格生成LEGO设计,通过体素化到20×20×20网格并应用legolization确定砖块布局。
- 通过随机化砖块布局增强每个形状的多个结构变体,同时保留整体形状。
- 对每个变体进行稳定性分析,过滤掉物理不稳定的设计。
- 通过24个不同视角渲染LEGO设计,使用GPT-4o生成详细的几何描述。
- 特点: 每个形状附带详细描述,确保多样性和稳定性。
方法概述
- 模型名称: LegoGPT
- 方法:
- 将LEGO设计标记化为文本标记序列,按从下到上的光栅扫描顺序排列。
- 创建指令数据集,将砖块序列与描述配对,微调LLaMA-3.2-Instruct-1B。
- 在推理时,LegoGPT根据文本提示逐步生成LEGO设计,每次预测一个砖块。
- 对每个生成的砖块进行有效性检查,确保格式正确、存在于砖块库中且不与现有砖块碰撞。
- 完成设计后验证其物理稳定性,若不稳定则回滚到稳定状态并继续生成。
应用示例
- 文本到LEGO结构生成:
- "A streamlined vessel with a long, narrow hull"
- "A classical guitar"
- "A basic sofa"
- "A bookshelf with horizontal tiers"
- "A high-backed chair"
- "A backless bench with armrest"
- 机器人自动组装: 展示生成结构的自动化组装过程(8倍速)。
- 纹理和彩色LEGO模型生成:
- "Rustic stone bench with moss growth [...]"
- "Hot rod with flame paintwork [...]"
- "Electric guitar in metallic purple [...]"
- "Sunburst Les Paul with amber finish [...]"
引用
bibtex @article{pun2025legogpt, title = {Generating Physically Stable and Buildable LEGO Designs from Text}, author = {Pun, Ava and Deng, Kangle and Liu, Ruixuan and Ramanan, Deva and Liu, Changliu and Zhu, Jun-Yan}, journal = {arXiv preprint arXiv:2505.05469}, year = {2025} }
致谢
- 感谢Minchen Li, Ken Goldberg, Nupur Kumari, Ruihan Gao, Yihao Shi的讨论和帮助。
- 感谢Jiaoyang Li, Philip Huang, Shobhit Aggarwal开发的双手机器人系统。
- 支持机构: Packard Foundation, Cisco Research Grant, Amazon Faculty Award, Manufacturing Futures Institute, Carnegie Mellon University, Richard King Mellon Foundation, Microsoft Research PhD Fellowship。

中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
LUNA16
LUNA16(肺结节分析)数据集是用于肺分割的数据集。它由 1,186 个肺结节组成,在 888 次 CT 扫描中进行了注释。
OpenDataLab 收录
Qilin
Qilin数据集是由清华大学和小红书公司合作创建的多模态信息检索数据集。该数据集包含来自小红书平台上超过3000万月活跃用户的APP级信息发现会话,涵盖了搜索、DQA(深度查询回答)和推荐等多种场景。Qilin特色在于收集了丰富的APP级上下文信号和真实用户反馈,有助于深入分析用户状态转换、回访和查询重构等行为,以建模用户满意度和长期留存。数据集中的用户会话包含文本和图像内容,适用于多种检索场景下的复杂查询意图理解和会话级跨模态匹配任务。
arXiv 收录