five

if001/aozorabunko-clean-sin

收藏
Hugging Face2023-09-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/if001/aozorabunko-clean-sin
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ja license: cc-by-4.0 size_categories: - 10K<n<100K task_categories: - text-generation - text-classification dataset_info: features: - name: text dtype: string - name: footnote dtype: string - name: meta struct: - name: 作品ID dtype: string - name: 作品名 dtype: string - name: 作品名読み dtype: string - name: ソート用読み dtype: string - name: 副題 dtype: string - name: 副題読み dtype: string - name: 原題 dtype: string - name: 初出 dtype: string - name: 分類番号 dtype: string - name: 文字遣い種別 dtype: string - name: 作品著作権フラグ dtype: string - name: 公開日 dtype: timestamp[s] - name: 最終更新日 dtype: timestamp[s] - name: 図書カードURL dtype: string - name: 人物ID dtype: string - name: 姓 dtype: string - name: 名 dtype: string - name: 姓読み dtype: string - name: 名読み dtype: string - name: 姓読みソート用 dtype: string - name: 名読みソート用 dtype: string - name: 姓ローマ字 dtype: string - name: 名ローマ字 dtype: string - name: 役割フラグ dtype: string - name: 生年月日 dtype: string - name: 没年月日 dtype: string - name: 人物著作権フラグ dtype: string - name: 底本名1 dtype: string - name: 底本出版社名1 dtype: string - name: 底本初版発行年1 dtype: string - name: 入力に使用した版1 dtype: string - name: 校正に使用した版1 dtype: string - name: 底本の親本名1 dtype: string - name: 底本の親本出版社名1 dtype: string - name: 底本の親本初版発行年1 dtype: string - name: 底本名2 dtype: string - name: 底本出版社名2 dtype: string - name: 底本初版発行年2 dtype: string - name: 入力に使用した版2 dtype: string - name: 校正に使用した版2 dtype: string - name: 底本の親本名2 dtype: string - name: 底本の親本出版社名2 dtype: string - name: 底本の親本初版発行年2 dtype: string - name: 入力者 dtype: string - name: 校正者 dtype: string - name: テキストファイルURL dtype: string - name: テキストファイル最終更新日 dtype: timestamp[s] - name: テキストファイル符号化方式 dtype: string - name: テキストファイル文字集合 dtype: string - name: テキストファイル修正回数 dtype: string - name: XHTML/HTMLファイルURL dtype: string - name: XHTML/HTMLファイル最終更新日 dtype: timestamp[s] - name: XHTML/HTMLファイル符号化方式 dtype: string - name: XHTML/HTMLファイル文字集合 dtype: string - name: XHTML/HTMLファイル修正回数 dtype: string --- this is fork https://huggingface.co/datasets/globis-university/aozorabunko-clean filtered row["meta"]["文字遣い種別"] == "新字新仮名"
提供机构:
if001
原始信息汇总

数据集概述

基本信息

  • 语言: 日语
  • 许可证: CC-BY-4.0
  • 大小: 10K<n<100K
  • 任务类别:
    • 文本生成
    • 文本分类

数据集特征

  • 文本字段:

    • name: text
    • dtype: string
  • 脚注字段:

    • name: footnote
    • dtype: string
  • 元数据字段:

    • name: meta
    • dtype: struct
      • 作品ID: string
      • 作品名: string
      • 作品名読み: string
      • ソート用読み: string
      • 副題: string
      • 副題読み: string
      • 原題: string
      • 初出: string
      • 分類番号: string
      • 文字遣い種別: string
      • 作品著作権フラグ: string
      • 公開日: timestamp[s]
      • 最終更新日: timestamp[s]
      • 図書カードURL: string
      • 人物ID: string
      • : string
      • : string
      • 姓読み: string
      • 名読み: string
      • 姓読みソート用: string
      • 名読みソート用: string
      • 姓ローマ字: string
      • 名ローマ字: string
      • 役割フラグ: string
      • 生年月日: string
      • 没年月日: string
      • 人物著作権フラグ: string
      • 底本名1: string
      • 底本出版社名1: string
      • 底本初版発行年1: string
      • 入力に使用した版1: string
      • 校正に使用した版1: string
      • 底本の親本名1: string
      • 底本の親本出版社名1: string
      • 底本の親本初版発行年1: string
      • 底本名2: string
      • 底本出版社名2: string
      • 底本初版発行年2: string
      • 入力に使用した版2: string
      • 校正に使用した版2: string
      • 底本の親本名2: string
      • 底本の親本出版社名2: string
      • 底本の親本初版発行年2: string
      • 入力者: string
      • 校正者: string
      • テキストファイルURL: string
      • テキストファイル最終更新日: timestamp[s]
      • テキストファイル符号化方式: string
      • テキストファイル文字集合: string
      • テキストファイル修正回数: string
      • XHTML/HTMLファイルURL: string
      • XHTML/HTMLファイル最終更新日: timestamp[s]
      • XHTML/HTMLファイル符号化方式: string
      • XHTML/HTMLファイル文字集合: string
      • XHTML/HTMLファイル修正回数: string
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作