kunishou/J-ResearchCorpus
收藏Hugging Face2024-03-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kunishou/J-ResearchCorpus
下载链接
链接失效反馈官方服务:
资源简介:
J-ResearchCorpus是一个从CC-BY-*许可证下的日语论文和学会志中提取的高质量文本数据集,适用于语言模型的预训练和RAG等应用。数据集包含文件名、文本、类别、许可证和信用等字段,数据来源包括多个学会和期刊的论文,总文字数约为3900万。数据集持续更新,未来将添加更多符合CC-BY-*许可证的日语论文。
J-ResearchCorpus是一个从CC-BY-*许可证下的日语论文和学会志中提取的高质量文本数据集,适用于语言模型的预训练和RAG等应用。数据集包含文件名、文本、类别、许可证和信用等字段,数据来源包括多个学会和期刊的论文,总文字数约为3900万。数据集持续更新,未来将添加更多符合CC-BY-*许可证的日语论文。
提供机构:
kunishou
原始信息汇总
J-ResearchCorpus
概要
- 高品質なテキストのデータセット:CC-BY-* ライセンスで公開されている日本語論文や学会誌等から抜粋したテキストデータセット。言語モデルの事前学習や RAG 等で活用可能。
- 今後の追加予定:CC-BY-* ライセンスの日本語論文があれば追加する予定。
データ説明
- filename:該当データのファイル名
- text:日本語論文から抽出したテキストデータ
- category:データソース
- license:ライセンス
- credit:クレジット
データソース・ライセンス
- テキスト総文字数:約 3,900 万文字
| data source | num records | license | note |
|---|---|---|---|
| 言語処理学会 年次大会発表論文集アーカイブ | 1,924 | cc-by-4.0 | 2021年から2024年の論文を抜粋 |
| 言語処理学会誌「自然言語処理」 | 363 | cc-by-4.0 | CC-BY-4.0公開となっている2009年以降のものを抜粋 |
| 東京女子医科大学雑誌 | 96 | cc-by-4.0 | |
| リスク研究(日本リスク学会) | 100 | cc-by-4.0 | |
| 日本熱電学会誌 | 11 | cc-by-4.0 | |
| デジタルアーカイブ学会誌 | 744 | cc-by-4.0 |
テキスト抽出例
- ニューラル機械翻訳における Iterative Back-Translation を利用したコンパラブルコーパスの活用に関する論文の抜粋。



