five

SaltyCedar/Copus_for_SentencePiece

收藏
Hugging Face2024-05-29 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/SaltyCedar/Copus_for_SentencePiece
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集主要用于SentencePiece模型的训练,包含多个子集:Copus_wiki_good和Copus_wiki_featured来源于日语维基百科的优秀和良好文章;Copus_cc100_ja和Copus_Coarse_cc100_ja来源于日语CC100数据集,并经过了特定的数据清洗和转换处理;Copus_pat2011来源于2011年的专利数据,并进行了特定的文本处理。所有数据都经过了全角半角转换,并以utf-8格式保存。

该数据集主要用于SentencePiece模型的训练,包含多个子集:Copus_wiki_good和Copus_wiki_featured来源于日语维基百科的优秀和良好文章;Copus_cc100_ja和Copus_Coarse_cc100_ja来源于日语CC100数据集,并经过了特定的数据清洗和转换处理;Copus_pat2011来源于2011年的专利数据,并进行了特定的文本处理。所有数据都经过了全角半角转换,并以utf-8格式保存。
提供机构:
SaltyCedar
原始信息汇总

数据集概述

数据集名称及来源

  • Copus_wiki_good: 日本語Wikipedia優秀な記事
  • Copus_wiki_featured: 日本語Wikipedia良好な記事
  • Copus_cc100_ja: 日本語CC100,原始数据量为458,387,942
  • Copus_Coarse_cc100_ja: 日本語CC100,经过筛选后的数据量为38,390,439
  • Copus_pat2011: 从2011_pat.parquet转换而来

数据处理

  • Copus_cc100_ja:

    • 删除被[]{}<>【】包围的词汇
    • 删除包含@或http的文句
    • 删除少于10个单词或多于200个单词的文句
    • 转换后的数据量为383,904,390
  • Copus_pat2011:

    • 去除【】符号
    • 全文转换为单行文本

数据格式

  • 使用unicodedata的NFKC进行全角半角转换,并以utf-8格式保存

许可证

  • Apache-2.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作