wikipedia-20250123
收藏魔搭社区2025-11-27 更新2025-02-08 收录
下载链接:
https://modelscope.cn/datasets/NeuML/wikipedia-20250123
下载链接
链接失效反馈官方服务:
资源简介:
# Dataset Card for Wikipedia English January 2025
Dataset created using this [repo](https://huggingface.co/datasets/NeuML/wikipedia) with a [January 2025 Wikipedia snapshot](https://dumps.wikimedia.org/enwiki/20250123/).
This repo also has a precomputed pageviews database. This database has the aggregated number of views for each page in Wikipedia. This file is built using the Wikipedia [Pageview complete dumps](https://dumps.wikimedia.org/other/pageview_complete/readme.html)
# 2025年1月版英文维基百科数据集卡片(Dataset Card)
本数据集依托该代码仓库(repo)创建,使用了2025年1月23日的英文维基百科快照(snapshot),相关代码仓库链接:https://huggingface.co/datasets/NeuML/wikipedia,维基百科快照下载链接:https://dumps.wikimedia.org/enwiki/20250123/。
本代码仓库同时提供预计算完成的页面访问量数据库,该数据库汇总了维基百科各页面的累计访问次数,其构建依托维基百科的完整页面访问量转储文件(Pageview complete dumps),相关转储说明文档链接:https://dumps.wikimedia.org/other/pageview_complete/readme.html。
提供机构:
maas
创建时间:
2025-02-02
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集基于2025年1月的Wikipedia快照构建,包含预计算的页面浏览量数据库,用于统计每个页面的聚合浏览量。数据集采用Apache License 2.0许可,文件大小为24.05GB。
以上内容由遇见数据集搜集并总结生成



