five

kuklinmike/wikipedia_ruen_v3

收藏
Hugging Face2024-11-25 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/kuklinmike/wikipedia_ruen_v3
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含文档信息,每个文档有唯一的标识符(id)、网址(url)、标题(title)、文本内容(text)和签名(signature为整数序列)。数据集仅包含训练集部分,共有6560万个例子,总数据大小为33473兆字节。

The dataset consists of document information, each with a unique identifier (id), URL (url), title (title), text content (text), and signature (an integer sequence). The dataset includes only the training set, with a total of 65.6 million examples and a total data size of 33,473 megabytes.
提供机构:
kuklinmike
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作