five

SaulLu/wikipedia_html_enterprise

收藏
Hugging Face2023-03-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SaulLu/wikipedia_html_enterprise
下载链接
链接失效反馈
官方服务:
资源简介:
# This is an helper script to load an html enterprise dataset into a datasets object ## How to use 1. Download a NS0 dump at https://dumps.wikimedia.org/other/enterprise_html/runs/20230220/ 2. Untar it For example with: ``` mkdir enwiki-NS6-20230220-ENTERPRISE-HTML tar -I pigz -vxf enwiki-NS6-20230220-ENTERPRISE-HTML.json.tar.gz -C enwiki-NS6-20230220-ENTERPRISE-HTML ``` 3. Load it: ```python from datasets import load_dataset local_path=... # Path to directory where you extracted the NS0 dump shard_id=... ds = load_dataset( "SaulLu/wikipedia_html_enterprise", shard=shard_id, data_dir=local_path ) ```
提供机构:
SaulLu
原始信息汇总

数据集概述

数据集名称

  • 名称: wikipedia_html_enterprise
  • 作者: SaulLu

数据集获取

  1. 下载地址: https://dumps.wikimedia.org/other/enterprise_html/runs/20230220/
  2. 文件格式: tar.gz
  3. 解压命令: bash mkdir enwiki-NS6-20230220-ENTERPRISE-HTML tar -I pigz -vxf enwiki-NS6-20230220-ENTERPRISE-HTML.json.tar.gz -C enwiki-NS6-20230220-ENTERPRISE-HTML

数据集加载

  • 加载方法: python from datasets import load_dataset

    local_path=... # Path to directory where you extracted the NS0 dump shard_id=...

    ds = load_dataset( "SaulLu/wikipedia_html_enterprise", shard=shard_id, data_dir=local_path )

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作