five

公共数据集

收藏
github2020-02-09 更新2024-05-31 收录
下载链接:
https://github.com/vipbaodao/Open-Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库收集了多种类型的公共数据集,包括图像处理、机器学习和自然语言处理等领域,每个数据集都提供了链接和简要描述,方便用户访问和使用。

This repository aggregates a variety of public datasets spanning fields such as image processing, machine learning, and natural language processing. Each dataset is accompanied by a link and a brief description to facilitate user access and utilization.
创建时间:
2018-10-11
原始信息汇总

图像处理数据集

  • 10k 美国人脸数据库
  • 2GB 猫的图片
  • 为性别和年龄分类任务而建的未经滤波处理的人脸数据集
  • 情感分类图像数据集
  • 具备属性标记的50种动物图像
  • 加州理工行人检测数据集
  • 自然图像中的字符识别数据集
  • 人脸检测数据库
  • 采集自Flickr的数十种商标图像
  • GDXray 近2w幅X光透视影像
  • 斯坦福 ImageNet 数据库
  • 室内场景识别图像
  • 弗罗里达大学提供经规范评分标记的用于情感刺激和心理认知研究的图像
  • 近百万样本的 MNIST 手写数字数据库
  • MIT提供室内室外各种场景下的环境光照变化图像
  • 斯坦福提供的120个品种超过2w样本犬类图像
  • 用于动作检测和行为识别的视频图像库
  • 牛津大学37类宠物图像
  • 人群中异常行为检测视频数据集
  • Visual genome 由斯坦福大学人工智能实验室李飞飞教授等建立的结构化描述图像数据库
  • YouTube 视频人脸数据集

机器学习数据集

  • 多种类型的分类和回归数据集
  • Discogs每月更新的音乐作品信息数据
  • 免费的音乐信息数据库
  • 每日更新的IMDb数据库
  • 分类、回归、时间序列等机器学习任务测试基准数据库
  • LFW野外标注人脸数据库
  • 分年度真实贷款申请和被拒数据
  • 哥伦比亚大学提供百万级歌曲数据
  • 电影评分和推荐数据
  • 对《纽约客》杂志标题的评分数据
  • 旧金山地区餐厅卫生评分数据
  • 加州大学尔湾分校提供用于机器学习任务的多种类别数据集
  • 来自Yahoo! 的多种分类和评分数据
  • 高质量的YouTube视频目标边界标注数据
  • Youtube 8m:高质量机器标注Youtube视频数据
  • 2012年度eBay在线拍卖数据

自然语言处理数据集

  • 自动关键词提取数据
  • 2004年英文博客语料库
  • Google抓取的英文网页语料库
  • Flickr个人分类数据
  • 多语种Google Books Ngrams数据集
  • Google MC-AFP - 机器理解数据集
  • Gutenberg项目提供的电子书
  • 第36届加拿大议会的会议记录
  • 微软机器理解数据库
  • 欧洲语言间机器翻译用平行语料库
  • 多领域公众情绪数据集
  • 开源多语种Wordnet
  • 英文垃圾短信数据集
  • Stanford问答数据集
  • 2005~2011英语新闻语料库
  • 多语种新闻语料库
  • 维基百科语料数据
  • 维基百科链接数据
  • WordNet大规模英文语义数据库
  • 玻森中文语料数据

大气环境数据集

  • 美国和加拿大部分地区气候数据
  • 澳大利亚每日天气数据
  • 美国国家海洋和大气管理局航空气象中心
  • 加拿大政府气象中心数据
  • 每月更新的全球温度数据
  • 欧洲及地中海沿岸地区极端天气状况数据
  • 自1929年开始遍布全球的超9000个气象站记录的全球气候数据
  • 美国国家航空航天局多种类全球数据可视化浏览服务
  • 美国国家海洋和大气管理局白令海洋生态和气候数据
  • 美国国家海洋和大气管理局多种类型大气和天气数据
  • 美国国家海洋和大气管理局 SURFRAD 气象雷达数据
  • 世界银行公开气候变化数据
  • 英国东安格利亚大学提供的多种气候数据
  • 分地区全球天气历史数据
  • 用于生态学模型和地理信息系统的全球气候数据

国内政府公开数据

  • 国家数据
  • 北京市政务数据资源网
  • 上海市政府数据服务网
  • 浙江政务服务网
  • 武汉市政府公开数据服务网

专利数据

  • 中国专利数据
  • 欧洲专利局数据服务
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集的构建采取了人工筛选与网络爬虫技术相结合的方式,以确保数据的多样性和准确性。手工验证的资源包括各类图像处理、机器学习、自然语言处理以及大气环境等领域的公共数据集,覆盖了从人脸识别到气候数据等多个维度,构建过程注重数据的真实性和代表性。
特点
该数据集的特点在于其内容的丰富性和领域的广泛性。不仅包含了图像处理、机器学习、自然语言处理等热门领域的数据集,还涵盖了大气环境、国内政府公开数据以及专利数据等。每一份数据资源都经过严格的筛选和验证,确保了数据集的质量和可靠性。
使用方法
用户可根据自身需求,通过数据集提供的链接直接访问并下载数据。对于部分需要科学上网的数据集,用户需确保网络环境符合要求。使用数据前,建议详细阅读数据集的README文件和相关文档,以了解数据的具体格式和使用条款。
背景与挑战
背景概述
公共数据集,更新于2018年10月11日,是一份涵盖多个领域的数据集清单,其中包括图像处理、机器学习、自然语言处理、大气环境、国内政府公开数据和专利数据等。该数据集的创建旨在为研究人员提供丰富的数据资源,以促进相关领域的研究和应用。其内容经过手工验证,保证了数据的质量和可靠性。该数据集的发布对于推动相关领域的技术发展,如图像识别、机器学习算法优化、自然语言处理技术进步等,具有重要的参考价值。
当前挑战
公共数据集在构建和使用过程中面临的挑战包括:1) 数据集的多样性和质量保证;2) 数据隐私和安全的处理;3) 数据更新和维护的持续性;4) 数据集在不同领域的适用性和准确性。此外,各领域具体数据集还面临各自的挑战,如图像数据集的标注一致性、机器学习数据集的特征工程、自然语言处理数据集的语言多样性处理等。
常用场景
经典使用场景
在图像处理领域,公共数据集为研究者提供了丰富的资源,其中美国人脸数据库、猫的图片、未经滤波处理的人脸数据集等,被广泛用于人脸识别、分类和情感分析等任务。这些数据集不仅包含大量标注数据,而且涵盖了不同的种族、年龄和性别,为算法的训练和评估提供了坚实基础。
解决学术问题
公共数据集解决了学术研究中数据获取的难题,为图像识别、自然语言处理、机器学习等多个领域的研究提供了数据支撑。例如,MNIST手写数字数据库为手写数字识别研究提供了标准测试平台;IMDb数据库和电影评分推荐数据为推荐系统研究提供了丰富的样本。这些数据集的标准化和广泛可用性,促进了学术研究的进展。
衍生相关工作
基于公共数据集,学术界产生了大量经典工作。例如,基于ImageNet数据库的深度学习模型研究,推动了计算机视觉领域的巨大进步;而MNIST数据集则激发了大量关于手写数字识别的新算法和优化技术的研究。此外,自然语言处理领域的多项研究也得益于公共数据集的可用性,如基于维基百科语料数据的语义理解和知识图谱构建工作。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作