five

M1keR/finewiki-gl

收藏
Hugging Face2025-10-22 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/M1keR/finewiki-gl
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含了多个字段的数据集,其中包括文本内容(text)、唯一标识符(id)、维基名称(wikiname)、页面ID(page_id)、标题(title)、URL(url)、修改日期(date_modified)、语言(in_language)、维基数据ID(wikidata_id)、HTML大小(bytes_html)、维基文本(wikitext)、版本(version)、信息框(infoboxes)、是否含有数学公式(has_math)和token数量(num_tokens)。数据集分为训练集,共有213941个示例,总大小为1962274396字节。

This dataset contains multiple fields including text content (text), unique identifier (id), Wikipedia name (wikiname), page ID (page_id), title (title), URL (url), modification date (date_modified), language (in_language), Wikidata ID (wikidata_id), HTML size (bytes_html), Wikipedia text (wikitext), version (version), infoboxes (infoboxes), whether it contains mathematical formulas (has_math), and the number of tokens (num_tokens). The dataset is split into a training set with a total of 213941 examples and a size of 1962274396 bytes.
提供机构:
M1keR
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作