five

kunishou/J-ResearchCorpus

收藏
Hugging Face2024-03-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kunishou/J-ResearchCorpus
下载链接
链接失效反馈
官方服务:
资源简介:
J-ResearchCorpus是一个从CC-BY-*许可证下的日语论文和学会志中提取的高质量文本数据集,适用于语言模型的预训练和RAG等应用。数据集包含文件名、文本、类别、许可证和信用等字段,数据来源包括多个学会和期刊的论文,总文字数约为3900万。数据集持续更新,未来将添加更多符合CC-BY-*许可证的日语论文。

J-ResearchCorpus是一个从CC-BY-*许可证下的日语论文和学会志中提取的高质量文本数据集,适用于语言模型的预训练和RAG等应用。数据集包含文件名、文本、类别、许可证和信用等字段,数据来源包括多个学会和期刊的论文,总文字数约为3900万。数据集持续更新,未来将添加更多符合CC-BY-*许可证的日语论文。
提供机构:
kunishou
原始信息汇总

J-ResearchCorpus

概要

  • 高品質なテキストのデータセット:CC-BY-* ライセンスで公開されている日本語論文や学会誌等から抜粋したテキストデータセット。言語モデルの事前学習や RAG 等で活用可能。
  • 今後の追加予定:CC-BY-* ライセンスの日本語論文があれば追加する予定。

データ説明

  • filename:該当データのファイル名
  • text:日本語論文から抽出したテキストデータ
  • category:データソース
  • license:ライセンス
  • credit:クレジット

データソース・ライセンス

  • テキスト総文字数:約 3,900 万文字
data source num records license note
言語処理学会 年次大会発表論文集アーカイブ 1,924 cc-by-4.0 2021年から2024年の論文を抜粋
言語処理学会誌「自然言語処理」 363 cc-by-4.0 CC-BY-4.0公開となっている2009年以降のものを抜粋
東京女子医科大学雑誌 96 cc-by-4.0
リスク研究(日本リスク学会) 100 cc-by-4.0
日本熱電学会誌 11 cc-by-4.0
デジタルアーカイブ学会誌 744 cc-by-4.0

テキスト抽出例

  • ニューラル機械翻訳における Iterative Back-Translation を利用したコンパラブルコーパスの活用に関する論文の抜粋。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作