movielens, imdb, geonames, wikipedia, tpch, fakedata
收藏github2022-11-29 更新2024-05-31 收录
下载链接:
https://github.com/saulpw/readysetdata
下载链接
链接失效反馈官方服务:
资源简介:
来自MovieLens的84k电影和28m评分数据集。包含9m电影/电视(1m评级),7m电视节目,12m人物的IMDb数据集。包含2.2m美国地名及其经纬度坐标的数据集,以及来自NGA GNS的13.6m非美国地点数据集。包含4m维基百科信息框的数据集,按类型组织。TPC-H数据集,由DuckDB生成。使用Faker生成的虚构数据集,包括可连接的产品、客户和订单表。
The dataset from MovieLens includes 84,000 movies and 28 million ratings. It encompasses an IMDb dataset with 9 million movies/TV shows (1 million ratings), 7 million TV series, and 12 million individuals. Additionally, it contains a dataset of 2.2 million U.S. geographical names with their latitude and longitude coordinates, along with a dataset of 13.6 million non-U.S. locations from NGA GNS. The collection also features a dataset of 4 million Wikipedia infoboxes, organized by type. The TPC-H dataset, generated by DuckDB, is included, as well as a fictional dataset created using Faker, which includes connectable tables for products, customers, and orders.
创建时间:
2022-06-08
原始信息汇总
数据集概述
数据集特点
- 精选和清洗过的数据集,注重质量而非数量。
- 所有工具和流程支持流式处理,快速获得初步结果。
- 字段和单位清晰标注,数据类型正确。
- 数据输出格式包括Parquet, Arrow, DuckDB, SQLite,便于直接使用。
- 数据集遵循合理标准,如UTF-8编码、RFC3339日期格式、十进制经纬度坐标、国际单位制。
主要数据集
make movielens
- 数据量:150MB
- 包含内容:84k电影和28m评分
- 更新时间:2019年
make imdb
- 数据量:20GB
- 包含内容:9m电影/电视节目(1m评级),7m电视节目集,12m人物
- 更新频率:每日更新
make geonames
- 数据量:500MB
- 包含内容:2.2m美国地名及经纬度坐标,13.6m非美国地点
- 更新频率:季度更新
make wikipedia
- 数据量:2.5GB
- 包含内容:4m维基百科信息框,按类型组织,JSONL格式
- 更新频率:每月更新
make tpch
- 数据量:500MB
- 包含内容:TPC-H数据,使用DuckDB生成
- 生成方式:随机生成
make fakedata
- 数据量:13MB
- 包含内容:可连接的产品、客户和订单表,模拟业务数据
- 生成方式:随机生成
支持的输出格式
- Apache Parquet
- Apache Arrow IPC格式
- DuckDB
- SQLite
用户可以通过设置FORMATS环境变量或使用-f <formats>参数指定输出格式。
搜集汇总
数据集介绍

构建方式
该数据集通过整合多个知名数据源,如MovieLens、IMDb、GeoNames和Wikipedia等,构建了一个多样化的数据集合。每个子数据集均经过精心筛选和清洗,确保数据质量。数据转换工具采用流式处理方式,能够即时生成可用格式,如Parquet、Arrow、DuckDB和SQLite。所有数据均符合UTF-8编码、RFC3339日期格式、十进制经纬度坐标和SI单位等标准。
特点
该数据集的特点在于其多样性和高质量。涵盖了电影评分、地理名称、维基百科信息框等多个领域的数据,且每个数据集都经过严格清洗和标注。数据格式丰富,支持多种输出格式,便于用户直接使用。此外,数据集更新频率高,部分数据如IMDb和GeoNames每日或每季度更新,确保数据的时效性。
使用方法
用户可以通过克隆GitHub仓库并运行`make`命令来生成所需的数据集。数据集支持多种输出格式,用户可通过设置环境变量`FORMATS`或命令行参数`-f`来指定输出格式。数据生成后,结果将存储在`OUTPUT`目录中。此外,提供了多个实用脚本,如`remote-unzip.py`和`xml2json.py`,用于处理远程压缩文件和XML转JSONL格式,进一步简化数据处理流程。
背景与挑战
背景概述
MovieLens数据集自1997年由明尼苏达大学的GroupLens研究团队创建以来,已成为推荐系统领域的重要基准数据集。该数据集包含大量用户对电影的评分数据,旨在通过协同过滤算法解决个性化推荐问题。其影响力不仅限于学术界,还在工业界得到了广泛应用,推动了推荐算法的发展与优化。IMDb数据集则源自互联网电影数据库,提供了丰富的电影、电视剧及演员信息,广泛应用于电影信息检索与推荐系统研究。GeoNames数据集整合了美国地质调查局(USGS)和国家地理空间情报局(NGA)的地理名称数据,为地理信息系统(GIS)研究提供了重要支持。Wikipedia数据集则通过提取维基百科信息框和文章摘要,为自然语言处理和信息检索领域提供了丰富的结构化数据。TPC-H和FakeData数据集则分别通过模拟商业数据和生成随机数据,为数据库性能测试和数据科学实验提供了标准化工具。
当前挑战
MovieLens和IMDb数据集在解决个性化推荐问题时,面临数据稀疏性和冷启动问题的挑战,即如何从有限的用户行为数据中挖掘有效的推荐模式。GeoNames数据集在构建过程中需处理地理名称的多样性和标准化问题,确保数据的准确性和一致性。Wikipedia数据集则需应对信息框结构复杂性和多语言处理的挑战,以提取高质量的结构化信息。TPC-H和FakeData数据集在生成模拟数据时,需确保数据的真实性和多样性,以支持有效的性能测试和算法验证。此外,所有数据集在构建过程中均需解决数据清洗、格式转换和高效存储等技术难题,以确保数据的可用性和可扩展性。
常用场景
经典使用场景
MovieLens数据集广泛应用于推荐系统的研究与开发中,特别是在电影推荐领域。该数据集包含了大量的用户评分和电影信息,为研究者提供了一个理想的实验平台,用于开发和测试个性化推荐算法。通过分析用户的历史评分数据,研究者能够深入理解用户偏好,进而设计出更加精准的推荐模型。
解决学术问题
MovieLens数据集解决了推荐系统领域中的多个关键问题,如冷启动问题、评分预测和用户行为分析。通过提供丰富的用户评分数据,研究者能够构建和验证各种推荐算法,从而提升推荐系统的准确性和用户满意度。此外,该数据集还为研究用户行为模式提供了宝贵的数据支持,推动了推荐系统领域的理论发展和实践应用。
衍生相关工作
MovieLens数据集衍生了许多经典的研究工作,如基于协同过滤的推荐算法、基于内容的推荐算法以及混合推荐算法。这些研究工作不仅在学术界产生了广泛影响,还在工业界得到了实际应用。例如,Netflix Prize竞赛中的许多获奖算法都基于MovieLens数据集进行了验证和优化,推动了推荐系统技术的快速发展。
以上内容由遇见数据集搜集并总结生成



