five

wikipedia-20240901

收藏
魔搭社区2025-12-04 更新2025-01-11 收录
下载链接:
https://modelscope.cn/datasets/NeuML/wikipedia-20240901
下载链接
链接失效反馈
官方服务:
资源简介:
# Dataset Card for Wikipedia English September 2024 Dataset created using this [repo](https://huggingface.co/datasets/NeuML/wikipedia) with a September 2024 Wikipedia snapshot. This repo also has a precomputed pageviews database. This database has the aggregated number of views for each page in Wikipedia. This file is built using the Wikipedia [Pageview complete dumps](https://dumps.wikimedia.org/other/pageview_complete/readme.html)

# 2024年9月英文维基百科数据集卡片 本数据集基于此[代码仓库](https://huggingface.co/datasets/NeuML/wikipedia)制作,采用2024年9月的维基百科数据快照。 该代码仓库同时提供预计算完成的页面访问量数据库。该数据库汇总了维基百科各页面的总访问次数,其构建依托维基百科的[完整页面访问量转储文件](https://dumps.wikimedia.org/other/pageview_complete/readme.html)
提供机构:
maas
创建时间:
2025-01-06
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是基于2024年9月英文维基百科快照生成的,包含23.88GB的数据,并附带预计算的页面浏览量数据库,记录了每个页面的总浏览量。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作