SaltyCedar/Copus_for_SentencePiece
收藏Hugging Face2024-05-29 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/SaltyCedar/Copus_for_SentencePiece
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要用于SentencePiece模型的训练,包含多个子集:Copus_wiki_good和Copus_wiki_featured来源于日语维基百科的优秀和良好文章;Copus_cc100_ja和Copus_Coarse_cc100_ja来源于日语CC100数据集,并经过了特定的数据清洗和转换处理;Copus_pat2011来源于2011年的专利数据,并进行了特定的文本处理。所有数据都经过了全角半角转换,并以utf-8格式保存。
该数据集主要用于SentencePiece模型的训练,包含多个子集:Copus_wiki_good和Copus_wiki_featured来源于日语维基百科的优秀和良好文章;Copus_cc100_ja和Copus_Coarse_cc100_ja来源于日语CC100数据集,并经过了特定的数据清洗和转换处理;Copus_pat2011来源于2011年的专利数据,并进行了特定的文本处理。所有数据都经过了全角半角转换,并以utf-8格式保存。
提供机构:
SaltyCedar
原始信息汇总
数据集概述
数据集名称及来源
- Copus_wiki_good: 日本語Wikipedia優秀な記事
- Copus_wiki_featured: 日本語Wikipedia良好な記事
- Copus_cc100_ja: 日本語CC100,原始数据量为458,387,942
- Copus_Coarse_cc100_ja: 日本語CC100,经过筛选后的数据量为38,390,439
- Copus_pat2011: 从2011_pat.parquet转换而来
数据处理
-
Copus_cc100_ja:
- 删除被[]{}<>【】包围的词汇
- 删除包含@或http的文句
- 删除少于10个单词或多于200个单词的文句
- 转换后的数据量为383,904,390
-
Copus_pat2011:
- 去除【】符号
- 全文转换为单行文本
数据格式
- 使用unicodedata的NFKC进行全角半角转换,并以utf-8格式保存
许可证
- Apache-2.0



