UnifedSKG|知识接地数据集|多任务学习数据集
收藏UnifiedSKG 数据集概述
数据集简介
UnifiedSKG 是一个用于结构化知识基础(Structured Knowledge Grounding, SKG)的统一框架,旨在将21个不同的SKG任务统一为文本到文本的格式。该框架通过使用大型语言模型(如T5)在几乎所有任务上实现了最先进的性能,并促进了多任务学习、零样本学习和少样本学习的研究。
数据集特点
- 任务统一:将21个SKG任务统一为文本到文本的格式,便于系统化研究。
- 多任务学习:支持多任务学习,通过多任务前缀调优显著提高了整体性能。
- 零样本和少样本学习:提供了一个具有挑战性的测试平台,适用于零样本和少样本学习。
- 结构化知识编码:支持对结构化知识编码变体的控制实验,研究T5在不同任务中对结构化知识编码的敏感性。
数据集内容
- 代码:提供了用于训练、评估和预测的代码。
- 权重:可以从HuggingFace Model Hub加载预训练的权重。
- 数据处理:提供了处理后的序列数据,便于用户进行自定义尝试。
数据集更新
- 2022-03-12:发布了处理后的序列数据,用户可以使用这些数据进行自定义尝试。
- 2022-01-12:发布了代码、Colab演示、权重和项目页面。
数据集使用
- 环境设置:提供了详细的依赖安装和环境设置步骤。
- 训练:提供了T5-base和T5-3b模型的微调和前缀调优的训练脚本。
- 权重加载:支持从HuggingFace Model Hub加载预训练权重。
数据集扩展
- 新增任务:详细说明了如何将新任务添加到UnifiedSKG框架中,包括数据加载器、序列包装器、评估器和配置文件的添加步骤。
数据集贡献
- 贡献者:列出了主要的贡献者及其GitHub链接。
- 引用:提供了引用该数据集的BibTeX格式。
数据集资源
- 项目页面:https://unifiedskg.com/
- HuggingFace Model Hub:https://huggingface.co/hkunlp
- Colab演示:https://colab.research.google.com/drive/1f9yTXC3GpSyRJOjzsKceG_bhk-Cw71Ga#scrollTo=r_3-DN0SvC97

China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
UCM-Captions, Sydney-Captions, RSICD, RSITMD, NWPU-Captions, RS5M, SkyScript
UCM-Captions: 包含613张图像,分辨率为256×256。Sydney-Captions: 包含2,100张图像,分辨率为500×500。RSICD: 包含10,921张图像,分辨率为224×224。RSITMD: 包含4,743张图像,分辨率为256×256。NWPU-Captions: 包含31,500张图像,分辨率为256×256。RS5M: 包含超过500万张图像,分辨率为所有可能的分辨率。SkyScript: 包含520万张图像,分辨率为所有可能的分辨率。
github 收录
CBIS-DDSM
该数据集用于训练乳腺癌分类器或分割模型,包含3103张乳腺X光片,其中465张有多个异常。数据集分为训练集和测试集,还包括3568张裁剪的乳腺X光片和对应的掩码。
github 收录