Planetarium|自然语言处理数据集|规划领域定义语言数据集
收藏planetarium🪐
Planetarium🪐 是一个用于评估大型语言模型(LLMs)将自然语言描述的规划问题转换为 PDDL 的数据集和基准。我们开发了一种使用图同构比较 PDDL 问题描述的稳健方法。
安装
要安装 planetarium
包,可以使用以下命令:
bash
pip install git+https://github.com/BatsResearch/planetarium.git
基本用法
要评估 PDDL 问题描述,可以使用 planetarium.evaluate
模块:
python
import planetarium
...
planetarium.evaluate(gt_pddl_str, pred_pddl_str)
支持的领域包括 blocksworld
和 gripper
。
数据集
数据集的主页可以在这里找到:planetarium。
以下是如何加载数据集的示例: python from datasets import load_dataset
dataset = load_dataset("BatsResearch/planetarium")
dataset["test"]
是论文中使用的主要测试集。您可以在此集上进行评估以重现我们的结果。
您可以通过运行以下命令来重现数据集、分割和报告: bash python dataset_generator.py -c dataset_config.yaml
通过修改 dataset_config.yaml
文件,您可以更改数据集分割、样本数量并生成更多示例。
数据集报告
以下是数据集中 PDDL 问题类型的摘要:
总问题数量:$132,037$。
抽象性分割
Init | Goal | blocksworld | gripper |
---|---|---|---|
abstract | abstract | $23,144$ | $10,632$ |
abstract | explicit | $23,086$ | $9,518$ |
explicit | abstract | $23,087$ | $10,313$ |
explicit | explicit | $23,033$ | $9,224$ |
大小分割(地面真值中的命题数量)
Num. of Propositions | blocksworld | gripper |
---|---|---|
$0$ - $20$ | $1,012$ | $379$ |
$20$ - $40$ | $10,765$ | $2,112$ |
$40$ - $60$ | $50,793$ | $9,412$ |
$60$ - $80$ | $26,316$ | $25,346$ |
$80$ - inf | $3,464$ | $2,438$ |
工作原理
Planetarium🪐 通过首先将两个 PDDL 问题描述转换为图表示来进行比较。图帮助我们更好地检测和操作某些对象和命题之间的关系。接下来,我们通过添加“平凡”命题(在问题描述中不存在但在满足该描述的任何状态中必须存在的命题)来构建“完全指定”的图表示。最后,我们使用图同构来比较两个 PDDL 问题描述的完全指定图表示,无论是比较整个问题图还是单独的初始和目标场景图。这使我们能够在不需要运行规划器的情况下检查自然语言描述到 PDDL 的转换的正确性。

- 1Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages布朗大学计算机科学系 · 2024年
基于站点观测的中国1km土壤湿度日尺度数据集(2000-2022)
本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(Soil Moisture of China by in situ data, version 1.0),SMCI1.0是包含2000-2022年、日尺度、以10厘米为间隔10层深度(10-100cm)的高时空分辨率土壤湿度,数据单位为0.001m³/m³,缺失值为-999,投影为WGS1984。该数据集是以中国气象局提供的1,648个站点观测10层土壤湿度作为基准,使用ERA5_Land气象强迫数据、叶面积指数(LAI)、土地覆盖类型(Landtypes)、地形(DEM)和土壤特性(Soil properties)作为协变量,通过机器学习方式获得。本研究进行了两组实验以验证SMCI1.0的精度,时间尺度上:ubRMSE为0.041-0.052,R为0.883-0.919;空间尺度上:ubRMSE为0.045-0.051,R为0.866-0.893。 由于SMCI1.0是基于实地观测的土壤湿度,它可以作为现有基于模型和卫星数据集的有效补充。该数据产品可用于各种水文、气象、生态分析和建模,尤其在需要高质量、高分辨率土壤湿度的应用上至关重要。有关数据集的引用及详细描述,请阅读说明文档。为便于使用,本研究提供了两种不同分辨率的版本:30 秒(~1km)和0.1度(~9km)。
国家青藏高原科学数据中心 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
NIH Chest X-rays
Over 112,000 Chest X-ray images from more than 30,000 unique patients
kaggle 收录
长江干流实时水位观测数据集(2024年)
该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。
国家地球系统科学数据中心 收录