five

ayousanz/OSCOR-2301-ja-cleaned

收藏
Hugging Face2024-05-09 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ayousanz/OSCOR-2301-ja-cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc0-1.0 language: - ja tags: - OSCAR-2301 --- # 概要 [oscar-corpus/OSCAR-2301](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301)の以下のjaのみを [corpus-cleaner](https://github.com/ce-lery/corpus-cleaner)を使用してデータクリーニングを行なったデーセット群 | Code | Language | # docs | # words | Content Length : | |:-------|:-------------------------|:--------------|:----------------|:-----------------| | ja | Japanese | 94,236,404 | 4,401,059,165 | 181.2 GB | ただし以下のファイルは、クリーニングが成功していないため除外しています。 ```json ja_meta_part_117.jsonl ja_meta_part_13.jsonl ja_meta_part_24.jsonl ja_meta_part_4.jsonl ja_meta_part_64.jsonl ja_meta_part_81.jsonl ja_meta_part_82.jsonl ```
提供机构:
ayousanz
原始信息汇总

数据集概述

基本信息

  • 数据集名称: OSCAR-2301
  • 语言: 日语 (ja)
  • 标签: OSCAR-2301
  • 许可证: CC0-1.0

数据统计

  • 文档数量: 94,236,404
  • 单词数量: 4,401,059,165
  • 内容长度: 181.2 GB

数据处理

  • 数据清洗工具: corpus-cleaner
  • 未成功清洗的文件:
    • ja_meta_part_117.jsonl
    • ja_meta_part_13.jsonl
    • ja_meta_part_24.jsonl
    • ja_meta_part_4.jsonl
    • ja_meta_part_64.jsonl
    • ja_meta_part_81.jsonl
    • ja_meta_part_82.jsonl
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作