five

hatakeyama-llm-team/CommonCrawlPDFJa

收藏
Hugging Face2024-05-28 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/hatakeyama-llm-team/CommonCrawlPDFJa
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ja license: odc-by --- # Data extracted from [CommonCrawlPDF](https://corp.digitalcorpora.org/corpora/files/CC-MAIN-2021-31-PDF-UNTRUNCATED/) - Japanese domain - Code is [here](https://github.com/hatakeyama-llm-team/CommonCrawlPDF/tree/main) -
提供机构:
hatakeyama-llm-team
原始信息汇总

数据集概述

数据来源

语言

  • 数据集语言为日语(ja)。

许可证

  • 数据集遵循 ODC-BY 许可证。

代码位置

  • 相关代码存放在 GitHub
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作