Tylersuard/PathfinderX2
收藏Hugging Face2023-04-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Tylersuard/PathfinderX2
下载链接
链接失效反馈官方服务:
资源简介:
Pathfinder-X2数据集包含200,000张512x512的图像和相应的分割掩码,每张图像包含不同长度的虚线“蛇”。模型的任务是分割出其中一端带有圆圈的蛇。该数据集旨在作为训练具有长距离依赖关系的大型语言模型的挑战性基准,特别是在处理像素序列输入时。数据集基于Drew Linsley等人的Pathfinder数据集构建,适用于语言、NLP、LLM和长距离依赖等领域的研究。
# Pathfinder-X2
许可协议:CC BY 4.0,可免费用于任何用途,包括商业用途,只需注明出处。
Pathfinder与Pathfinder-X数据集曾是训练具备长程依赖能力的大语言模型(Large Language Model,LLM)的关键基准数据集。2023年1月,Meta的Mega大语言模型在Pathfinder-X数据集上取得了97%的准确率,这表明现有基准仍存在提升难度的空间。
Pathfinder-X2数据集包含200000张512×512分辨率的图像,以及与之对应的200000张图像分割掩码。每张图像中均包含若干条长度各异的虚线"蛇形"轨迹,模型的任务为仅分割出一端带有圆形标记的那条蛇形轨迹。每张图像需以逐像素的方式作为序列输入至大语言模型中。
配套解释论文:https://www.overleaf.com/read/rpsmdnxbdfjt
本数据集基于Drew Linsley、Alekh K Ashok、Lakshmi N Govindarajan、Rex Liu与Thomas Serre提出的Pathfinder数据集构建。


---
标注创作者:
- Tyler Suard
标签:
- 语言
- 自然语言处理(Natural Language Processing,NLP)
- 大语言模型(Large Language Model,LLM)
- 长程依赖
规模分类:
- 10万 < 样本量 < 100万
提供机构:
Tylersuard
原始信息汇总
Pathfinder-X2 数据集概述
数据集内容
- 图像数量与尺寸:包含200,000张512x512像素的图像。
- 分割掩码数量:对应每张图像,提供200,000个分割掩码。
- 图像内容:每张图像包含不同长度的虚线“蛇”,任务是分割出带有圆圈一端的蛇。
- 数据使用方式:每张图像作为序列,逐像素输入大型语言模型。
数据集用途
- 训练目标:用于训练具有长距离依赖性的大型语言模型。
数据集版本与比较
- 前身数据集:基于Pathfinder数据集。
- 性能指标:2023年1月,Meta的Mega LLM在Pathfinder-X数据集上得分97%,表明需要更挑战性的基准。
许可证
- 许可证类型:CC BY 4.0。
- 使用条件:免费用于任何目的,包括商业用途,需注明出处。



