hpprc/jawiki

Name: hpprc/jawiki
Creator: hpprc
Published: 2024-02-13 15:19:49
License: 暂无描述

Hugging Face2024-02-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/hpprc/jawiki

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - ja license: - cc-by-sa-3.0 - gfdl pretty_name: jawik dataset_info: features: - name: id dtype: int64 - name: title dtype: string - name: text dtype: string - name: paragraphs list: - name: paragraph_id dtype: int64 - name: tag dtype: string - name: text dtype: string - name: title dtype: string - name: abstract dtype: string - name: wikitext dtype: string - name: date_created dtype: string - name: date_modified dtype: string - name: is_disambiguation_page dtype: bool - name: is_sexual_page dtype: bool - name: is_violent_page dtype: bool - name: templates sequence: string - name: url dtype: string splits: - name: train num_bytes: 21992139146 num_examples: 1399160 download_size: 11689147520 dataset_size: 21992139146 configs: - config_name: default data_files: - split: train path: data/train-* --- # JaWiki Wikipediaの[HTML形式のダンプファイル](https://dumps.wikimedia.org/other/enterprise_html/)から抽出したテキストデータセットです。 Wikiextractorによって抽出したテキストデータと異なり、段落などの文書構造を維持したまま、不要なマークアップのないテキストが利用できます。ダンプファイルは、2024年1月1日に公開されたものを利用しています。また、各種NLPタスクに利用しやすいよう、様々なデータを同梱しています。各種前処理スクリプトは[GitHubのリポジトリ](https://github.com/hppRC/jawiki)をご参照ください。 ## データ構造各レコードはWikipediaの記事一つに対応しています。大まかなデータ構造と説明を以下に示します。 - id (int) - title (str) - 記事タイトルです。 - text (str) - 各段落の文章(`paragraphs`の`text`)を改行で結合したテキストです。 - paragraphs (list[dict[str, int | str]]) - 記事中の段落の集合です。各段落は辞書型で表現されており、以下のデータ構造に基づきます。 - paragraph_id (int) - 記事中で何番目の段落かを示す番号です。 - tag (str) - 当該段落をマークアップしていたHTMLタグの名称です。 - title (str | None) - 当該段落を含むセクションのタイトルです。 - 存在しない場合もあります。 - text (str) - 段落のテキスト本文です。 - abstract (str | None) - 記事の要約です。 - ない場合もあります。 - wikitext (str) - wikitextによって抽出された記事本文です。比較・解析精度向上に資する目的で`text`と併存しています。 - date_created (str) - 記事が作成された日付です。 - date_modified (str) - 記事が最後に編集された日付です。 - is_disambiguation_page (bool) - 曖昧さ回避のためのページかどうかを表す値です。`templates`に含まれる文字列から判別しています。 - is_sexual_page (bool) - 性的な内容を含むページかどうかを表す値です。`templates`に含まれる文字列から判別しています。 - is_violent_page (bool) - 暴力的な内容を含むページかどうかを表す値です。`templates`に含まれる文字列から判別しています。 - templates (list[str]) - 記事を作成する際に利用されたテンプレートのリストです。 - url (str) データセットの作成にあたり、[singletongue/wikipedia-utils](https://github.com/singletongue/wikipedia-utils)を参考に実装を行いました。この場を借りて感謝申し上げます。

提供机构：

hpprc

原始信息汇总

数据集概述

数据来源

数据集是从Wikipedia的HTML格式转储文件中提取的文本数据。

数据特点

与使用Wikiextractor提取的文本数据不同，本数据集在保持段落等文档结构的同时，去除了不必要的标记，提供纯净的文本数据。

数据用途

提供无多余标记的文本数据，适用于需要保持文档结构的研究和应用。

5,000+

优质数据集

54 个

任务类型

进入经典数据集