p208p2002/wikipedia-zhtw-filtered
收藏Hugging Face2024-06-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/p208p2002/wikipedia-zhtw-filtered
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train
path: data/*.parquet
language:
- zh
---
# Wikipedia-zhtw Filtered
此資料集使用 [huggingface/datatrove](https://github.com/huggingface/datatrove) 進行了系統性的資料清洗。
我們在清洗過程中應用了多種基於規則的過濾方法,移除許多過短、重複和含有噪聲的資料。
提供机构:
p208p2002
原始信息汇总
数据集概述
数据集名称
Wikipedia-zhtw Filtered
数据处理
- 使用工具:huggingface/datatrove
- 处理方法:应用了多種基于规则的过滤方法,包括移除过短、重复和含有噪声的数据。
数据文件配置
- 配置名称:default
- 数据文件:
- 分割:train
- 路径:data/*.parquet
语言
- 中文(zh)



