movielens, imdb, geonames, wikipedia, tpch, fakedata

github2022-11-29 更新2024-05-31 收录

下载链接：

https://github.com/saulpw/readysetdata

下载链接

链接失效反馈

官方服务：

资源简介：

来自MovieLens的84k电影和28m评分数据集。包含9m电影/电视（1m评级），7m电视节目，12m人物的IMDb数据集。包含2.2m美国地名及其经纬度坐标的数据集，以及来自NGA GNS的13.6m非美国地点数据集。包含4m维基百科信息框的数据集，按类型组织。TPC-H数据集，由DuckDB生成。使用Faker生成的虚构数据集，包括可连接的产品、客户和订单表。

The dataset from MovieLens includes 84,000 movies and 28 million ratings. It encompasses an IMDb dataset with 9 million movies/TV shows (1 million ratings), 7 million TV series, and 12 million individuals. Additionally, it contains a dataset of 2.2 million U.S. geographical names with their latitude and longitude coordinates, along with a dataset of 13.6 million non-U.S. locations from NGA GNS. The collection also features a dataset of 4 million Wikipedia infoboxes, organized by type. The TPC-H dataset, generated by DuckDB, is included, as well as a fictional dataset created using Faker, which includes connectable tables for products, customers, and orders.

创建时间：

2022-06-08

原始信息汇总

数据集概述

数据集特点

精选和清洗过的数据集，注重质量而非数量。
所有工具和流程支持流式处理，快速获得初步结果。
字段和单位清晰标注，数据类型正确。
数据输出格式包括Parquet, Arrow, DuckDB, SQLite，便于直接使用。
数据集遵循合理标准，如UTF-8编码、RFC3339日期格式、十进制经纬度坐标、国际单位制。

主要数据集

`make movielens`

数据量：150MB
包含内容：84k电影和28m评分
更新时间：2019年

`make imdb`

数据量：20GB
包含内容：9m电影/电视节目（1m评级），7m电视节目集，12m人物
更新频率：每日更新

`make geonames`

数据量：500MB
包含内容：2.2m美国地名及经纬度坐标，13.6m非美国地点
更新频率：季度更新

`make wikipedia`

数据量：2.5GB
包含内容：4m维基百科信息框，按类型组织，JSONL格式
更新频率：每月更新

`make tpch`

数据量：500MB
包含内容：TPC-H数据，使用DuckDB生成
生成方式：随机生成

`make fakedata`

数据量：13MB
包含内容：可连接的产品、客户和订单表，模拟业务数据
生成方式：随机生成

支持的输出格式

Apache Parquet
Apache Arrow IPC格式
DuckDB
SQLite

用户可以通过设置FORMATS环境变量或使用-f <formats>参数指定输出格式。

搜集汇总

数据集介绍

构建方式

该数据集通过整合多个知名数据源，如MovieLens、IMDb、GeoNames和Wikipedia等，构建了一个多样化的数据集合。每个子数据集均经过精心筛选和清洗，确保数据质量。数据转换工具采用流式处理方式，能够即时生成可用格式，如Parquet、Arrow、DuckDB和SQLite。所有数据均符合UTF-8编码、RFC3339日期格式、十进制经纬度坐标和SI单位等标准。

特点

该数据集的特点在于其多样性和高质量。涵盖了电影评分、地理名称、维基百科信息框等多个领域的数据，且每个数据集都经过严格清洗和标注。数据格式丰富，支持多种输出格式，便于用户直接使用。此外，数据集更新频率高，部分数据如IMDb和GeoNames每日或每季度更新，确保数据的时效性。

使用方法

用户可以通过克隆GitHub仓库并运行`make`命令来生成所需的数据集。数据集支持多种输出格式，用户可通过设置环境变量`FORMATS`或命令行参数`-f`来指定输出格式。数据生成后，结果将存储在`OUTPUT`目录中。此外，提供了多个实用脚本，如`remote-unzip.py`和`xml2json.py`，用于处理远程压缩文件和XML转JSONL格式，进一步简化数据处理流程。

背景与挑战

背景概述

MovieLens数据集自1997年由明尼苏达大学的GroupLens研究团队创建以来，已成为推荐系统领域的重要基准数据集。该数据集包含大量用户对电影的评分数据，旨在通过协同过滤算法解决个性化推荐问题。其影响力不仅限于学术界，还在工业界得到了广泛应用，推动了推荐算法的发展与优化。IMDb数据集则源自互联网电影数据库，提供了丰富的电影、电视剧及演员信息，广泛应用于电影信息检索与推荐系统研究。GeoNames数据集整合了美国地质调查局（USGS）和国家地理空间情报局（NGA）的地理名称数据，为地理信息系统（GIS）研究提供了重要支持。Wikipedia数据集则通过提取维基百科信息框和文章摘要，为自然语言处理和信息检索领域提供了丰富的结构化数据。TPC-H和FakeData数据集则分别通过模拟商业数据和生成随机数据，为数据库性能测试和数据科学实验提供了标准化工具。

当前挑战

MovieLens和IMDb数据集在解决个性化推荐问题时，面临数据稀疏性和冷启动问题的挑战，即如何从有限的用户行为数据中挖掘有效的推荐模式。GeoNames数据集在构建过程中需处理地理名称的多样性和标准化问题，确保数据的准确性和一致性。Wikipedia数据集则需应对信息框结构复杂性和多语言处理的挑战，以提取高质量的结构化信息。TPC-H和FakeData数据集在生成模拟数据时，需确保数据的真实性和多样性，以支持有效的性能测试和算法验证。此外，所有数据集在构建过程中均需解决数据清洗、格式转换和高效存储等技术难题，以确保数据的可用性和可扩展性。

常用场景

经典使用场景

MovieLens数据集广泛应用于推荐系统的研究与开发中，特别是在电影推荐领域。该数据集包含了大量的用户评分和电影信息，为研究者提供了一个理想的实验平台，用于开发和测试个性化推荐算法。通过分析用户的历史评分数据，研究者能够深入理解用户偏好，进而设计出更加精准的推荐模型。

解决学术问题

MovieLens数据集解决了推荐系统领域中的多个关键问题，如冷启动问题、评分预测和用户行为分析。通过提供丰富的用户评分数据，研究者能够构建和验证各种推荐算法，从而提升推荐系统的准确性和用户满意度。此外，该数据集还为研究用户行为模式提供了宝贵的数据支持，推动了推荐系统领域的理论发展和实践应用。

衍生相关工作

MovieLens数据集衍生了许多经典的研究工作，如基于协同过滤的推荐算法、基于内容的推荐算法以及混合推荐算法。这些研究工作不仅在学术界产生了广泛影响，还在工业界得到了实际应用。例如，Netflix Prize竞赛中的许多获奖算法都基于MovieLens数据集进行了验证和优化，推动了推荐系统技术的快速发展。

以上内容由遇见数据集搜集并总结生成