TigerResearch/sft_en|自然语言处理数据集|模型微调数据集
收藏数据集概述
基本信息
- 许可证: Apache-2.0
- 语言: 英文
数据集内容
- 来源: 来自Tigerbot开源项目,专为英文sft-en数据集微调。
数据集细分
类型 | 语言 | 数据集文件 | 数量 |
---|---|---|---|
alpaca 英文 | 英文 | tigerbot-alpaca-en-50k | 50k |
头脑风暴 | 英文 | tigerbot-dolly-Brainstorming-en-1.7k | 1.7k |
分类 | 英文 | tigerbot-dolly-Classification-en-2k | 2k |
代码 | 英文 | tigerbot-kaggle-leetcodesolutions-en-2k | 2k |
食谱生成 | 英文 | tigerbot-kaggle-recipes-en-2k | 2k |
病历生成 | 英文 | tigerbot-mt-note-generation-en | 450 |
多轮对话 | 英文 | tigerbot-OIG-multichat-en-50k | 50k |
综合问答 | 英文 | tigerbot-stackexchange-qa-en-0.5m | 0.5m |
wiki 问答 | 英文 | tigerbot-wiki-qa-bart-en-10k | 10k |
如何做类教程 | 英文 | tigerbot-youtube-howto-en-50k | 50k |
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
OMIM (Online Mendelian Inheritance in Man)
OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。
www.omim.org 收录
UCM-Captions, Sydney-Captions, RSICD, RSITMD, NWPU-Captions, RS5M, SkyScript
UCM-Captions: 包含613张图像,分辨率为256×256。Sydney-Captions: 包含2,100张图像,分辨率为500×500。RSICD: 包含10,921张图像,分辨率为224×224。RSITMD: 包含4,743张图像,分辨率为256×256。NWPU-Captions: 包含31,500张图像,分辨率为256×256。RS5M: 包含超过500万张图像,分辨率为所有可能的分辨率。SkyScript: 包含520万张图像,分辨率为所有可能的分辨率。
github 收录
CMAB
CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。
arXiv 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录