lfsm/wiki_interleave
收藏Hugging Face2023-05-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lfsm/wiki_interleave
下载链接
链接失效反馈官方服务:
资源简介:
这是一个名为interleaved wiki的数据集,处理自日文维基百科的文章转储文件。数据集以parquet文件格式存储,包含四个列:xml, markdown, html, 和 pairs。xml列包含原始的XML格式数据,markdown列包含Markdown格式的数据,html列包含HTML格式的数据,而pairs列则包含图像链接与对应URL的配对。
这是一个名为interleaved wiki的数据集,处理自日文维基百科的文章转储文件。数据集以parquet文件格式存储,包含四个列:xml, markdown, html, 和 pairs。xml列包含原始的XML格式数据,markdown列包含Markdown格式的数据,html列包含HTML格式的数据,而pairs列则包含图像链接与对应URL的配对。
提供机构:
lfsm
原始信息汇总
数据集概述
数据集名称
interleaved wiki dataset
数据来源
- 日文维基百科文章转储文件:
jawiki-20230301-pages-articles-multistream1.xml-p1p114794
数据格式
- 存储格式:Parquet
数据结构
- 列信息:
xml: 包含维基文章的原始XML格式数据。markdown: 包含维基文章的Markdown格式数据。html: 包含维基文章的HTML格式数据。pairs: 包含图像标签与对应URL的配对数据。
示例内容
xml示例:- 包含文章片段,如地理描述和图像标签。
markdown示例:未提供具体内容。html示例:未提供具体内容。pairs示例:- 图像标签与URL的配对,如:
###img#0###对应https://upload.wikimedia.org/wikipedia/commons/e/e7/Revenus_%C3%A0_Paris_et_Petite_Couronne.JPG###img#1###对应https://upload.wikimedia.org/wikipedia/commons/c/c1/Bois_de_Boulogne_%2880%29.jpg
- 图像标签与URL的配对,如:



