UnifedSKG|知识接地数据集|多任务学习数据集
收藏UnifiedSKG 数据集概述
数据集简介
UnifiedSKG 是一个用于结构化知识基础(Structured Knowledge Grounding, SKG)的统一框架,旨在将21个不同的SKG任务统一为文本到文本的格式。该框架通过使用大型语言模型(如T5)在几乎所有任务上实现了最先进的性能,并促进了多任务学习、零样本学习和少样本学习的研究。
数据集特点
- 任务统一:将21个SKG任务统一为文本到文本的格式,便于系统化研究。
- 多任务学习:支持多任务学习,通过多任务前缀调优显著提高了整体性能。
- 零样本和少样本学习:提供了一个具有挑战性的测试平台,适用于零样本和少样本学习。
- 结构化知识编码:支持对结构化知识编码变体的控制实验,研究T5在不同任务中对结构化知识编码的敏感性。
数据集内容
- 代码:提供了用于训练、评估和预测的代码。
- 权重:可以从HuggingFace Model Hub加载预训练的权重。
- 数据处理:提供了处理后的序列数据,便于用户进行自定义尝试。
数据集更新
- 2022-03-12:发布了处理后的序列数据,用户可以使用这些数据进行自定义尝试。
- 2022-01-12:发布了代码、Colab演示、权重和项目页面。
数据集使用
- 环境设置:提供了详细的依赖安装和环境设置步骤。
- 训练:提供了T5-base和T5-3b模型的微调和前缀调优的训练脚本。
- 权重加载:支持从HuggingFace Model Hub加载预训练权重。
数据集扩展
- 新增任务:详细说明了如何将新任务添加到UnifiedSKG框架中,包括数据加载器、序列包装器、评估器和配置文件的添加步骤。
数据集贡献
- 贡献者:列出了主要的贡献者及其GitHub链接。
- 引用:提供了引用该数据集的BibTeX格式。
数据集资源
- 项目页面:https://unifiedskg.com/
- HuggingFace Model Hub:https://huggingface.co/hkunlp
- Colab演示:https://colab.research.google.com/drive/1f9yTXC3GpSyRJOjzsKceG_bhk-Cw71Ga#scrollTo=r_3-DN0SvC97

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9
该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。
huggingface 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
WikiArt
为了收集我们的美术作品集,我们使用了公开的 “维基艺术绘画” 数据集4 ;据我们所知,这是最大的数字化艺术品在线公开收藏。这个收藏有从十五个世纪到当代艺术家的1,119艺术家的81,449精工画的图像。 这些绘画来自27种不同的风格 (抽象,拜占庭,巴洛克等) 和 45种不同的流派 (室内、风景等)先前的作品 [26,9] 使用了不同的资源,并制作了较小的收藏,在风格,流派方面的可变性有限 和艺术家。[4] 的工作在数据收集程序方面最接近我们的工作,但是他们收集的图像数量是我们的一半。
OpenDataLab 收录
PartNet
我们介绍了PartNet: 一个一致的、大规模的三维对象数据集,用细粒度的、实例级的和分层的三维零件信息进行注释。我们的数据集包括573,585个零件实例,超过26,671个3D模型,涵盖24个对象类别。该数据集支持并充当许多任务的催化剂,例如形状分析,动态3D场景建模和仿真,可承受分析等。使用我们的数据集,我们建立了用于评估3D零件识别的三个基准任务: 细粒度语义分割,分层语义分割和实例分割。我们对四种最先进的3D深度学习算法进行了基准测试,用于细粒度语义分割,并对三种基线方法进行了基准测试。我们还提出了一种新颖的零件实例分割方法,并证明了其优于现有方法的性能。
OpenDataLab 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录
