five

philschmid/flanv2

收藏
hugging_face2023-02-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/philschmid/flanv2
下载链接
链接失效反馈
资源简介:
这是Flan V2数据集的一个处理版本。Flan V2数据集包含了Flan 2021、P3、Super-Natural Instructions、Chain-of-thought和Dialog等多种任务的数据实例。数据字段包括Few Shot、Zero Shot、Options Provided in context和No Options Provided等格式,每种任务和格式的组合都保存为JSONL文件,包含输入、目标和任务信息。所有数据都保存为训练集。
提供机构:
philschmid
原始信息汇总

数据集概述

数据集名称

  • Pretty Name: Flan v2

数据集描述

  • 摘要: 这是一个Flan V2数据集的加工版本。数据集由多个任务组成,包括Flan 2021 (flan), P3 (t0), Super-Natural Instructions (niv2), Chain-of-thought (cot), 和 Dialog (dialog)。
  • 处理说明: 作者建议尝试不同的任务混合比例以获得最佳的下游效果。当前版本缺少一些数据集,如cs-en WMT翻译任务和q_re_cc对话任务的数据预处理问题。

数据集结构

数据实例

  • 包含Flan 2021 (flan), P3 (t0), Super-Natural Instructions (niv2), Chain-of-thought (cot), 和 Dialog (dialog)等任务。

数据字段

  • 指令数据格式包括:
    • Few Shot (fs)
    • Zero Shot (zs)
    • 上下文中的选项提供(即多项选择,选一个)(opt)
    • 无选项提供 (noopt)
  • 每个任务+格式的组合以JSONL格式保存,遵循以下模式:{"input": ..., "target": ..., "task": ...}

数据分割

  • 所有数据保存为训练分割。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Philschmid所构建的Flan V2数据集,是基于原始Flan V2数据集的二次处理版本。该数据集在保留原始数据集结构的基础上,通过筛选和格式化,使其更加易于访问和使用。它涵盖了多种任务类型和格式,包括Few Shot、Zero Shot、带有选项的上下文以及无选项的格式,并以JSONL文件形式存储,每条记录包含输入、目标和任务类型等信息。此数据集在构建过程中,因部分数据集获取权限限制或预处理问题,暂缺少数据集,但整体不影响数据集的使用和研究价值。
使用方法
使用Flan V2数据集时,用户可以直接访问其提供的train split,数据以JSONL格式存储,便于读取和处理。用户可以根据具体的研究需求,选择不同类型和格式的数据样例进行训练。针对数据集中缺失的部分,建议关注数据集维护者的更新,以获取完整版本。此外,数据集的使用者应遵循Apache-2.0开源协议,合理使用和分享数据集成果。
背景与挑战
背景概述
Flan v2数据集,作为Flan Collection的重要组成部分,是在2023年由Google Research团队推出的一种先进的人工智能指令数据集。该数据集的创建旨在推进开放域指令微调技术的发展,通过提供多样化的任务和格式,以实现更好的下游任务表现。Flan v2数据集的发布,不仅丰富了自然语言处理领域的研究资源,也为相关技术的发展提供了强有力的数据支撑,进一步推动了人工智能领域的研究进程。
当前挑战
尽管Flan v2数据集为研究提供了便利,但在构建和应用过程中也面临一些挑战。首先,数据集在构建过程中遇到了部分数据集的手动下载和预处理问题,如cs-en WMT翻译任务和q_re_cc对话任务的数据预处理。其次,数据集在应用中的挑战在于如何根据不同的任务调整指令微调的比例,以获得最优的下游任务表现。此外,当前版本的数据集并非完整版,缺少部分数据,这限制了其研究潜力的完全发挥,亟待后续版本的完善。
常用场景
经典使用场景
在自然语言处理领域,Flan V2数据集以其丰富的任务类型和格式成为研究者的首选。该数据集支持少样本学习、零样本学习以及提供或不提供选项的上下文学习,使得研究者在探索不同学习策略时得以在该数据集上获得最佳的下游任务结果。
解决学术问题
Flan V2数据集解决了自然语言处理中跨任务学习的难题,为研究者提供了一个统一的框架,以探究不同混合比例的任务对模型性能的影响。其研究成果有助于推动开放域语言模型的进步,对学术领域产生了深远的影响。
实际应用
实际应用中,Flan V2数据集被广泛用于提升机器翻译、对话系统以及生成式文本模型的性能。通过实验不同的任务混合比例,开发者能够优化模型,使其在特定应用中表现更为出色,从而提高用户体验。
数据集最近研究
最新研究方向
在自然语言处理领域,Flan v2数据集以其创新的指令微调技术受到广泛关注。研究者们正致力于探索该数据集在不同任务混合比例下的性能优化,以期在下游任务中取得最佳效果。Flan v2的推出,不仅丰富了语言模型训练的资源,也为开放域指令微调技术提供了新的研究方向,对推动自然语言理解的进步具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

马达加斯加岛 – 世界地理数据大百科辞条

马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。

国家对地观测科学数据中心 收录

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。

www.omim.org 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录