five

hpprc/jawiki

收藏
Hugging Face2024-02-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hpprc/jawiki
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ja license: - cc-by-sa-3.0 - gfdl pretty_name: jawik dataset_info: features: - name: id dtype: int64 - name: title dtype: string - name: text dtype: string - name: paragraphs list: - name: paragraph_id dtype: int64 - name: tag dtype: string - name: text dtype: string - name: title dtype: string - name: abstract dtype: string - name: wikitext dtype: string - name: date_created dtype: string - name: date_modified dtype: string - name: is_disambiguation_page dtype: bool - name: is_sexual_page dtype: bool - name: is_violent_page dtype: bool - name: templates sequence: string - name: url dtype: string splits: - name: train num_bytes: 21992139146 num_examples: 1399160 download_size: 11689147520 dataset_size: 21992139146 configs: - config_name: default data_files: - split: train path: data/train-* --- # JaWiki Wikipediaの[HTML形式のダンプファイル](https://dumps.wikimedia.org/other/enterprise_html/)から抽出したテキストデータセットです。 Wikiextractorによって抽出したテキストデータと異なり、段落などの文書構造を維持したまま、不要なマークアップのないテキストが利用できます。 ダンプファイルは、2024年1月1日に公開されたものを利用しています。 また、各種NLPタスクに利用しやすいよう、様々なデータを同梱しています。 各種前処理スクリプトは[GitHubのリポジトリ](https://github.com/hppRC/jawiki)をご参照ください。 ## データ構造 各レコードはWikipediaの記事一つに対応しています。 大まかなデータ構造と説明を以下に示します。 - id (int) - title (str) - 記事タイトルです。 - text (str) - 各段落の文章(`paragraphs`の`text`)を改行で結合したテキストです。 - paragraphs (list[dict[str, int | str]]) - 記事中の段落の集合です。各段落は辞書型で表現されており、以下のデータ構造に基づきます。 - paragraph_id (int) - 記事中で何番目の段落かを示す番号です。 - tag (str) - 当該段落をマークアップしていたHTMLタグの名称です。 - title (str | None) - 当該段落を含むセクションのタイトルです。 - 存在しない場合もあります。 - text (str) - 段落のテキスト本文です。 - abstract (str | None) - 記事の要約です。 - ない場合もあります。 - wikitext (str) - wikitextによって抽出された記事本文です。比較・解析精度向上に資する目的で`text`と併存しています。 - date_created (str) - 記事が作成された日付です。 - date_modified (str) - 記事が最後に編集された日付です。 - is_disambiguation_page (bool) - 曖昧さ回避のためのページかどうかを表す値です。`templates`に含まれる文字列から判別しています。 - is_sexual_page (bool) - 性的な内容を含むページかどうかを表す値です。`templates`に含まれる文字列から判別しています。 - is_violent_page (bool) - 暴力的な内容を含むページかどうかを表す値です。`templates`に含まれる文字列から判別しています。 - templates (list[str]) - 記事を作成する際に利用されたテンプレートのリストです。 - url (str) データセットの作成にあたり、[singletongue/wikipedia-utils](https://github.com/singletongue/wikipedia-utils)を参考に実装を行いました。 この場を借りて感謝申し上げます。
提供机构:
hpprc
原始信息汇总

数据集概述

数据来源

  • 数据集是从Wikipedia的HTML格式转储文件中提取的文本数据。

数据特点

  • 与使用Wikiextractor提取的文本数据不同,本数据集在保持段落等文档结构的同时,去除了不必要的标记,提供纯净的文本数据。

数据用途

  • 提供无多余标记的文本数据,适用于需要保持文档结构的研究和应用。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作