five

lfsm/wiki_interleave

收藏
Hugging Face2023-05-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lfsm/wiki_interleave
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个名为interleaved wiki的数据集,处理自日文维基百科的文章转储文件。数据集以parquet文件格式存储,包含四个列:xml, markdown, html, 和 pairs。xml列包含原始的XML格式数据,markdown列包含Markdown格式的数据,html列包含HTML格式的数据,而pairs列则包含图像链接与对应URL的配对。

这是一个名为interleaved wiki的数据集,处理自日文维基百科的文章转储文件。数据集以parquet文件格式存储,包含四个列:xml, markdown, html, 和 pairs。xml列包含原始的XML格式数据,markdown列包含Markdown格式的数据,html列包含HTML格式的数据,而pairs列则包含图像链接与对应URL的配对。
提供机构:
lfsm
原始信息汇总

数据集概述

数据集名称

interleaved wiki dataset

数据来源

  • 日文维基百科文章转储文件:jawiki-20230301-pages-articles-multistream1.xml-p1p114794

数据格式

  • 存储格式:Parquet

数据结构

  • 列信息:
    • xml: 包含维基文章的原始XML格式数据。
    • markdown: 包含维基文章的Markdown格式数据。
    • html: 包含维基文章的HTML格式数据。
    • pairs: 包含图像标签与对应URL的配对数据。

示例内容

  • xml 示例:
    • 包含文章片段,如地理描述和图像标签。
  • markdown 示例:未提供具体内容。
  • html 示例:未提供具体内容。
  • pairs 示例:
    • 图像标签与URL的配对,如:
      • ###img#0### 对应 https://upload.wikimedia.org/wikipedia/commons/e/e7/Revenus_%C3%A0_Paris_et_Petite_Couronne.JPG
      • ###img#1### 对应 https://upload.wikimedia.org/wikipedia/commons/c/c1/Bois_de_Boulogne_%2880%29.jpg
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作