five

kilt_wikipedia

收藏
OpenCSG2024-07-19 更新2026-01-19 收录
下载链接:
https://opencsg.com/datasets/facebook/kilt_wikipedia?tab=summary
下载链接
链接失效反馈
官方服务:
资源简介:
KiltWikipedia 提供了为KILT(Knowledge Intensive Language Tasks)预处理的维基百科数据,数据总量约为29.37GB,下载文件大小为37.32GB,包含5903530个样本。每个数据实例包含kilt_id、wikipedia_id、wikipedia_title、text(段落)、anchors(段落ID、起始位置、结束位置、文本、链接、维基百科标题、维基百科ID)、categories、wikidata_info(描述、enwikiquote_title、wikidata_id、wikidata_label、wikipedia_title、别名)和history(pageid、parentid、revid、pre_dump、timestamp、url)等字段。该数据适用于知识密集型语言任务,但关于数据集的创建、标注、授权许可等详细信息,以及支持的任务和排行榜等信息,目前尚待补充。
提供机构:
facebook
创建时间:
2024-07-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作