p208p2002/csl-1.8G-filtered
收藏Hugging Face2024-06-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/p208p2002/csl-1.8G-filtered
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train
path: data/*.parquet
language:
- zh
---
# CSL 中文科學論文摘要資料集
資料來源: https://github.com/ydli-ai/CSL
此資料集使用 [huggingface/datatrove](https://github.com/huggingface/datatrove) 進行了系統性的資料清洗。
我們在清洗過程中應用了多種基於規則的過濾方法,移除許多過短、重複和含有噪聲的資料。
提供机构:
p208p2002
原始信息汇总
CSL 中文科學論文摘要資料集概述
数据集配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/*.parquet
语言
- 支持语言: 中文 (zh)
数据清洗
- 使用 huggingface/datatrove 进行系统性数据清洗。
- 应用了多种基于规则的过滤方法,移除了过短、重复和含有噪声的数据。



