garage-bAInd/Open-Platypus|自然语言处理数据集|机器学习数据集

hugging_face2024-01-24 更新2024-03-04 收录

自然语言处理

机器学习

下载链接：

https://hf-mirror.com/datasets/garage-bAInd/Open-Platypus

下载链接

链接失效反馈

资源简介：

该数据集专注于提升大型语言模型（LLM）的逻辑推理技能，特别是用于训练Platypus2模型。它由多个经过关键词搜索和Sentence Transformers过滤的子数据集组成，确保问题相似度不超过80%。数据集还进行了数据污染检查，移除了与Hugging Face基准测试集重复的问题。

提供机构：

garage-bAInd

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Open-Platypus
数据集大小:
- 下载大小: 15565850字节
- 数据集大小: 30776452字节
语言: 英语（en）
大小类别: 10K<n<100K

数据集结构

配置:
- 默认配置:
  - 数据文件:
    - 分割: train
    - 路径: data/train-*
数据集信息:
- 特征:
  - input: 数据类型为字符串
  - output: 数据类型为字符串
  - instruction: 数据类型为字符串
  - data_source: 数据类型为字符串
- 分割:
  - train:
    - 字节数: 30776452
    - 示例数: 24926

数据集来源

组成数据集:
- PRM800K
- MATH
- ScienceQA
- SciBench
- ReClor
- TheoremQA
- nuprl/leetcode-solutions-python-testgen-gpt4
- jondurbin/airoboros-gpt4-1.4.1
- TigerResearch/tigerbot-kaggle-leetcodesolutions-en-2k
- ARB
- timdettmers/openassistant-guanaco

数据集用途

目的: 用于提升LLM（大型语言模型）的逻辑推理技能，特别是用于训练Platypus2模型。
数据处理: 通过关键词搜索和Sentence Transformers过滤，移除相似度超过80%的问题。

数据集清理

清理措施: 移除了约200个出现在Hugging Face基准测试集中的问题。

数据集引用

引用文献:
- Platypus: Quick, Cheap, and Powerful Refinement of LLMs
- Lets Verify Step by Step
- Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering
- SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models
- ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning
- TheoremQA: A Theorem-driven Question Answering dataset
- Measuring Mathematical Problem Solving With the MATH Dataset
- ARB: Advanced Reasoning Benchmark for Large Language Models

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎，旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域，包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey（CHNS）是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目，旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响，以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体，采用多阶段随机抽样方法，收集了家庭、个体以及社区层面的详细数据，包括饮食、健康、经济和社会因素等信息。自2011年起，CHNS不断扩展，新增多个城市和省份，并持续完善纵向数据链接，为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

马达加斯加岛 – 世界地理数据大百科辞条

马达加斯加岛在非洲的东南部，位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望，最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明，马达加斯加岛面积591,128.68平方千米，其中马达加斯加本岛面积589,015.06平方千米，周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛，是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形，南北向长1,572千米；南北窄，中部宽，最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米，周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区，119个县。22个区分别为：阿那拉芒加区，第亚那区，上马齐亚特拉区，博爱尼区，阿齐那那那区，阿齐莫-安德列发那区，萨瓦区，伊达西区，法基南卡拉塔区，邦古拉法区，索非亚区，贝齐博卡区，梅拉基区，阿拉奥特拉-曼古罗区，阿那拉兰基罗富区，阿莫罗尼马尼亚区，法土法韦-非图韦那尼区，阿齐莫-阿齐那那那区，伊霍罗贝区，美那贝区，安德罗伊区和阿诺西区。首都安塔那那利佛（Antananarivo）位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山，其主峰马鲁穆库特鲁山（Maromokotro）海拔2,876米，是全国最高峰。马达加斯加自然景观垂直地带性分异显著，是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物，其中包括马达加斯加特有物种狐猴（Lemur catta）、马达加斯加国树猴面包树（Adansonia digitata L.）等。

国家对地观测科学数据中心收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录