five

M1keR/finewiki-ca

收藏
Hugging Face2025-10-22 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/M1keR/finewiki-ca
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从维基百科抓取的页面信息,其中包括文本内容、页面标题、URL、修改日期、语言等信息。每个页面都有一个唯一的标识符和维基数据ID。此外,数据集还提供了页面是否包含数学公式的标记以及页面的大小和token数量。数据集被划分为训练集,并提供了相应的文件路径。

The dataset consists of Wikipedia page information, including text content, page title, URL, modification date, language, etc. Each page has a unique identifier and Wikidata ID. Additionally, the dataset provides a flag indicating whether the page contains mathematical formulas, as well as the size and number of tokens of the page. The dataset is split into a training set and the corresponding file paths are provided.
提供机构:
M1keR
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作