agent-eto/eto-sft-trajectory|语言模型优化数据集|代理学习数据集
收藏数据集概述
数据集配置
- 默认配置:包含三个数据文件路径,分别对应不同的数据集分割:
- WebShop:路径为
data/webshop_*
- ScienceWorld:路径为
data/sciworld_*
- Alfworld:路径为
data/alfworld_*
- WebShop:路径为
数据集信息
- 特征:
- id:数据类型为字符串
- conversations:列表类型,包含对话元素,每个元素具有以下特征:
- from:数据类型为字符串
- value:数据类型为字符串
- 分割:
- WebShop:包含1823个示例
- ScienceWorld:包含1482个示例
- Alfworld:包含3118个示例
语言
- 英语 (
en
)
数据集名称与许可证
- 名称:ETO-SFT-Trajectory
- 许可证:Apache-2.0
数据集大小
- 范围:1K<n<10K
数据集内容
- WebShop:使用GPT-4探索环境并选择奖励大于0.7的轨迹
- ScienceWorld:使用环境提供的启发式算法生成黄金轨迹
- Alfworld:提供少量人类注释的轨迹用于模仿学习
数据格式
- 示例: json [ { "id": "example_0", "conversations": [ { "from": "human", "value": "Who are you?" }, { "from": "gpt", "value": "I am Vicuna, a language model trained by researchers from Large Model Systems Organization (LMSYS)." }, { "from": "human", "value": "Have a nice day!" }, { "from": "gpt", "value": "You too!" } ] } ]
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
UAV123
从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。
OpenDataLab 收录
NASA Battery Dataset
用于预测电池健康状态的数据集,由NASA提供。
github 收录