Datasets
收藏github2025-02-03 更新2025-02-10 收录
下载链接:
https://github.com/shivam-maurya-git/Datasets
下载链接
链接失效反馈官方服务:
资源简介:
该仓库包含多样化的数据源,涵盖法律案例、健康、体育、交通、金融、公司文件等多个领域,并提供开放数据门户和数据转储的链接。
The repository encompasses a diverse range of data sources, including legal cases, health, sports, transportation, finance, and corporate documents, and provides links to an open data portal and data dumps.
创建时间:
2025-02-02
原始信息汇总
数据集概述
数据集名称
Datasets
数据集描述
该数据集是一个综合性的数据集集合,涵盖了多个主题领域的数据源,包括法律案件、健康、体育、交通、金融、公司文件等。此外,还提供了开放数据门户和数据转储的链接。
数据集主题分类
-
犯罪/法律案件/网络犯罪
- Gun Violence Archive (美国)
- UNODC Research: Office on Drugs and Crimes
- NACJD | Home Page (美国)
- APIs and Bulk Data – CourtListener.com (美国法院案件)
- Bureau of Justice Statistics (美国)
- Crime/Law Enforcement Stats (UCR Program) — FBI
- Home - eCourt India Services (印度)
- Tech Support Scam data
- Public.Resource.Org (美国法律案件)
-
战略
- IISS China Connects Data on Chinese project in past, present and future in world
- Top 100 Defence Companies
-
开放数据门户(国家/城市/数据搜索门户)/可持续发展/数据网络
- Stanford Large Network Dataset Collection
- Open Data India
- Data - European Commission
- Federal State Statistics Service — SDDS Data (俄罗斯联邦)
- CSAF Open Data Portal
- New York City Open Data
- Numbeo (全球城市社会经济因素数据)
- US Gov Open Data
- Lumen (版权打击数据搜索)
- Scottish Data Search Engine
- Data For Good - Meta (Facebook公司数据)
- IMF Data
- Open Sea Map
- UNESCO Data for the Sustainable Development Goals
- Development Data Lab (印度)
- NASA Scientific Visualization Studio
- UN Environment Data
- European Union Countries Indicators Data
- Open Data Soft - Open Data Hub
- Data.World
- World Bank Open Data
- UNICEF Open Data
- Datasets | Climate Data Online (CDO) | National Climatic Data Center (NCDC) (美国)
- Open Science Data Cloud
- UK Open Data
- Find public records and leaks - OCCRP Aleph
- Yelp Open Data
- Harvard Dataverse
- Open Global addresses collection
- CERN open data - on particle physics
- Microdata, India Govt (印度)
- Awesome public realtime datasets
- Awesome Data on different topics
- Registry of Open Data - AWS
- Patents Data by Google
- NACo County Explorer (美国县区探索)
-
天文学/遥感
- Planetary Systems (EXoplanets data)
- National Remote Sensing Centre (印度)
- Planetary Data System (NASA)
- Earthdata | Earthdata (NASA)
-
健康/医学/人口
- Data Hub - Family Planning 2030
- Repurposing Medicine Data
- World Happiness Report
- National Center for Health Statistics (美国)
- Global Digital Health Monitor
- UN Population Data
- National Family Health Survey (印度)
- World Population Repo
- US Census Data
- UK Data Service
- CDC Archive
- Health Data Gov (美国)
- Global Health Observatory - WHO
- NHS Digital (英国)
-
金融/公司文件/贸易
- OpenSpending: How Governments around the world spend their data
- EDGAR Data (美国证券交易委员会公司文件数据)
- Trade Statistics - Mcommerce (印度)
- NIRYAT (印度进出口数据)
- UN Comtrade
- BEA Data | U.S. Bureau of Economic Analysis (BEA)
- Financial Statements Data (美国SEC)
- Federal Reserve Economic Data | FRED | St. Louis Fed (美国)
- RBI: Public Debt Statistics (印度)
-
教育
- Integrated Postsecondary Education Data System (美国)
- National Center for Education Statistics
- Study.eu: Study in Europe. Bachelors, Masters, PhDs (欧盟大学数据库)
- International Schools Database
- World Higher Education Database (WHED) Portal
-
娱乐(电影/梗/TV/音乐/OTT/书籍)
- IMDB Non-Commercial Dataset
- Internet Meme Database
- Weekly TV Viewership data (印度)
- Spotify Weekly Top 10
- Nielsen: Top 10 Streaming
- Netflix Top 10
- Amazon Popular Books Dataset
-
政治
- Association for Democratic Reforms | Improving and Strengthening Democracy in India (印度)
- UN Voting API
- World Corruption Index
-
交通(航班/道路)
- National Roadway Safety Strategy (NRSS) (美国)
- FlightAware - Flight Tracker / Flight Status
- FlightConnections - All flights worldwide on a map!
- Worldwide routes and flights from all airports - FlightsFrom.com
- OpenFlights.org: Flight logging, mapping, stats and sharing
- Flightradar24 database - Advanced search - Flightradar24
- Tom Tom Traffic Index
- Indian Air Transport Data (印度)
-
自然灾害
- Earthquakes Record Worldwide
-
地质/河流
- EarthExplorer (USGS)
- India Water Resources Information System
- National Water Informatics Center (印度)
- Indian Geo Platform of ISRO (印度)
-
互联网/网络安全
- World Largest Domains data
- Pawned Websites
-
体育
- Premier League Club Records, All-Time Team & Player Stats (足球)
- Indian Premier League Stats (板球)
- The Baseball Cube (棒球)
-
科技公司透明度数据
- Meta Transparency reports
- Snapchat Transparency
- LinkedIn Transparency
- Google Transparency Report
- X Transparency
- Reddit Transparency
- Discord Transparency Hub
- Tumblr Transparency
- Yandex Transparency
-
杂项:数据转储、机器学习数据、图像数据、文本数据
- Datasets - UCI Machine Learning Repository
- Wikimedia Data Dump
- Common Crawl - Open Repository of Web Crawl Data
- FaceForensics++: Learning to Detect Manipulated Facial Images
- Code and datasets - Amazon Science
- Open Data on AWS
- Data resources and tools | EMBL-EBI (英国欧洲生物信息学研究所)
- Open Library Data Dump
- Brown Corpus (美国英语文本集合)
- WordNet (英语词汇数据库)
-
AI训练数据
- Awesome ChatGPT datasets
- Sama-Coco Datasets (图像)
- Open ML Data
- Hugging Face Datasets
搜集汇总
数据集介绍

构建方式
该数据集名为Datasets,是一个内容全面的互联网数据源集合。它通过搜集和整理来自不同领域的数据资源,如法律案例、健康、体育、交通、金融、公司档案等,构建了一个多元化的数据集。数据集的构建主要依赖于对现有开放数据门户、数据共享平台以及特定领域数据库的整合,同时也鼓励用户通过贡献数据源或提交pull request来丰富数据集内容。
使用方法
用户可以通过直接访问数据集提供的链接获取所需数据,或通过API接口进行数据的调用和集成。对于参与数据集建设的用户,可以通过fork仓库或提交pull request来贡献新的数据源。数据集的使用不限于研究分析,还包括商业应用、政策制定等多个领域。
背景与挑战
背景概述
Datasets 是一个全面的在线数据源集合,涵盖多个领域,如法律案例、健康、体育、交通、金融、公司档案等。该数据集由多样化的贡献者维护,旨在提供开放的数据端口、数据 dumps 以及相关链接,以促进数据的共享和利用。自创建以来,它已经成为研究人员和开发者寻求多源数据的重要平台,对数据科学、社会科学等多个领域产生了积极影响。
当前挑战
尽管 Datasets 数据集提供了丰富的数据资源,但在数据质量、更新频率、以及数据的一致性和标准化方面仍面临挑战。此外,数据集的多样性和广泛性也可能导致在使用特定领域数据时遇到数据量不足或数据不相关的问题。在构建过程中,确保数据的准确性和合法性,以及处理数据隐私和版权问题也是重要的挑战。
常用场景
经典使用场景
Datasets 数据集作为互联网上综合性的数据来源,其经典使用场景主要集中于学术研究、商业分析和政策制定等领域。学者和研究人员可以从中获取所需领域的数据,进行趋势分析、模式识别和预测模型构建等。
解决学术问题
该数据集解决了学术研究中数据获取的难题,尤其是对于那些需要大量、多源、异构数据的研究项目。它为研究者提供了从法律案例、健康医疗、体育运动、交通运输、金融财务等多个领域的高质量数据,极大地促进了学术研究的深度与广度。
实际应用
在实际应用场景中,Datasets 数据集被广泛应用于市场分析、政策制定、风险评估等多个领域。企业可以利用这些数据进行商业智能分析,政府机构可以用于社会管理和决策支持,从而提高决策效率和准确性。
数据集最近研究
最新研究方向
Datasets 数据集涉及多个领域,其研究方向亦呈多样化趋势。在社会科学领域,犯罪数据分析成为研究热点,如利用Gun Violence Archive进行枪支暴力事件的研究。在战略研究方面,对中国在全球的项目数据进行深入分析,以揭示其影响和策略。在开放数据网络领域,研究者关注如何通过数据共享和开放促进可持续发展。在健康医疗领域,家庭计划和全球幸福指数的数据分析,为改善公共卫生政策提供支持。在商业金融领域,公司财务报表和市场数据的挖掘,有助于理解经济趋势和公司行为。此外,自然语言处理和机器学习领域,也大量利用各类文本和图像数据集进行模型训练和性能优化。这些研究不仅推动了数据科学的发展,也为相关领域决策提供了科学依据。
以上内容由遇见数据集搜集并总结生成



