if001/aozorabunko-clean-sin
收藏Hugging Face2023-09-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/if001/aozorabunko-clean-sin
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- ja
license: cc-by-4.0
size_categories:
- 10K<n<100K
task_categories:
- text-generation
- text-classification
dataset_info:
features:
- name: text
dtype: string
- name: footnote
dtype: string
- name: meta
struct:
- name: 作品ID
dtype: string
- name: 作品名
dtype: string
- name: 作品名読み
dtype: string
- name: ソート用読み
dtype: string
- name: 副題
dtype: string
- name: 副題読み
dtype: string
- name: 原題
dtype: string
- name: 初出
dtype: string
- name: 分類番号
dtype: string
- name: 文字遣い種別
dtype: string
- name: 作品著作権フラグ
dtype: string
- name: 公開日
dtype: timestamp[s]
- name: 最終更新日
dtype: timestamp[s]
- name: 図書カードURL
dtype: string
- name: 人物ID
dtype: string
- name: 姓
dtype: string
- name: 名
dtype: string
- name: 姓読み
dtype: string
- name: 名読み
dtype: string
- name: 姓読みソート用
dtype: string
- name: 名読みソート用
dtype: string
- name: 姓ローマ字
dtype: string
- name: 名ローマ字
dtype: string
- name: 役割フラグ
dtype: string
- name: 生年月日
dtype: string
- name: 没年月日
dtype: string
- name: 人物著作権フラグ
dtype: string
- name: 底本名1
dtype: string
- name: 底本出版社名1
dtype: string
- name: 底本初版発行年1
dtype: string
- name: 入力に使用した版1
dtype: string
- name: 校正に使用した版1
dtype: string
- name: 底本の親本名1
dtype: string
- name: 底本の親本出版社名1
dtype: string
- name: 底本の親本初版発行年1
dtype: string
- name: 底本名2
dtype: string
- name: 底本出版社名2
dtype: string
- name: 底本初版発行年2
dtype: string
- name: 入力に使用した版2
dtype: string
- name: 校正に使用した版2
dtype: string
- name: 底本の親本名2
dtype: string
- name: 底本の親本出版社名2
dtype: string
- name: 底本の親本初版発行年2
dtype: string
- name: 入力者
dtype: string
- name: 校正者
dtype: string
- name: テキストファイルURL
dtype: string
- name: テキストファイル最終更新日
dtype: timestamp[s]
- name: テキストファイル符号化方式
dtype: string
- name: テキストファイル文字集合
dtype: string
- name: テキストファイル修正回数
dtype: string
- name: XHTML/HTMLファイルURL
dtype: string
- name: XHTML/HTMLファイル最終更新日
dtype: timestamp[s]
- name: XHTML/HTMLファイル符号化方式
dtype: string
- name: XHTML/HTMLファイル文字集合
dtype: string
- name: XHTML/HTMLファイル修正回数
dtype: string
---
this is fork
https://huggingface.co/datasets/globis-university/aozorabunko-clean
filtered
row["meta"]["文字遣い種別"] == "新字新仮名"
提供机构:
if001
原始信息汇总
数据集概述
基本信息
- 语言: 日语
- 许可证: CC-BY-4.0
- 大小: 10K<n<100K
- 任务类别:
- 文本生成
- 文本分类
数据集特征
-
文本字段:
- name: text
- dtype: string
-
脚注字段:
- name: footnote
- dtype: string
-
元数据字段:
- name: meta
- dtype: struct
- 作品ID: string
- 作品名: string
- 作品名読み: string
- ソート用読み: string
- 副題: string
- 副題読み: string
- 原題: string
- 初出: string
- 分類番号: string
- 文字遣い種別: string
- 作品著作権フラグ: string
- 公開日: timestamp[s]
- 最終更新日: timestamp[s]
- 図書カードURL: string
- 人物ID: string
- 姓: string
- 名: string
- 姓読み: string
- 名読み: string
- 姓読みソート用: string
- 名読みソート用: string
- 姓ローマ字: string
- 名ローマ字: string
- 役割フラグ: string
- 生年月日: string
- 没年月日: string
- 人物著作権フラグ: string
- 底本名1: string
- 底本出版社名1: string
- 底本初版発行年1: string
- 入力に使用した版1: string
- 校正に使用した版1: string
- 底本の親本名1: string
- 底本の親本出版社名1: string
- 底本の親本初版発行年1: string
- 底本名2: string
- 底本出版社名2: string
- 底本初版発行年2: string
- 入力に使用した版2: string
- 校正に使用した版2: string
- 底本の親本名2: string
- 底本の親本出版社名2: string
- 底本の親本初版発行年2: string
- 入力者: string
- 校正者: string
- テキストファイルURL: string
- テキストファイル最終更新日: timestamp[s]
- テキストファイル符号化方式: string
- テキストファイル文字集合: string
- テキストファイル修正回数: string
- XHTML/HTMLファイルURL: string
- XHTML/HTMLファイル最終更新日: timestamp[s]
- XHTML/HTMLファイル符号化方式: string
- XHTML/HTMLファイル文字集合: string
- XHTML/HTMLファイル修正回数: string



