WebInstruct|自然语言处理数据集|机器学习数据集
收藏数据集概述
数据集名称
- WebInstruct
数据集描述
- 该数据集是通过从Web corpus中提取的高质量指令数据,涵盖数学和科学等多个领域。
- 采用三步管道方法:从Common Crawl召回文档,提取Q-A对,并进行质量精炼。
- 最终产出1000万个指令-响应对,命名为WebInstruct。
数据集部分发布
- 部分数据集已发布于🤗 TIGER-Lab/WebInstructSub。
相关模型
- MAmmoTH2系列模型
- 使用WebInstruct数据集训练。
- 包括多个版本,如MAmmoTH2-8x7B, MAmmoTH2-7B, MAmmoTH2-8B等。
- 部分模型结合了其他数据集,如OpenHermes2.5, CodeFeedback, Math-Plus。
- 模型下载链接均指向🤗 HuggingFace。
评估结果
- 详细评估结果请参考项目页面。
引用信息
-
若使用数据、模型或代码,请引用论文:
@article{yue2024mammoth2, title={MAmmoTH2: Scaling Instructions from the Web}, author={Yue, Xiang and Zheng, Tuney and Zhang, Ge and Chen, Wenhu}, journal={arXiv preprint arXiv:2405.03548}, year={2024} }

ROBEL
ROBEL是一个开源的低成本机器人平台,专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发,包含两个机器人:D'Claw,一个三指手机器人,用于促进精细操作任务的学习;D'Kitty,一个四足机器人,用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固,能够承受从零开始的硬件强化学习,目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务,这些任务具有密集和稀疏的任务目标,并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问,旨在解决强化学习在真实机器人上的应用问题,特别是在处理物理限制和环境交互方面的挑战。
arXiv 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
MIT Indoor Scenes
室内场景识别是高水平视觉中一个具有挑战性的开放性问题。大多数适用于室外场景的场景识别模型在室内领域的表现都较差。该数据库包含67个室内类别,共15620张图像。图像的数量因类别而异,但每个类别至少有100张图像。所有图像均为jpg格式。此处提供的图像仅用于研究目的。
阿里云天池 收录
FAOSTAT Agricultural Data
FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。
www.fao.org 收录