fineweb-zhtw
收藏魔搭社区2025-12-18 更新2025-03-08 收录
下载链接:
https://modelscope.cn/datasets/voidful/fineweb-zhtw
下载链接
链接失效反馈官方服务:
资源简介:
# Fineweb-zhtw
## Overview / 概覽
This repository contains the **Fineweb-zhtw** dataset, a large-scale collection of Traditional Chinese text data mined from the web. It is built upon the HuggingFaceFW/fineweb-2 dataset with modifications provided by [mtkresearch/fineweb-zhtw](https://github.com/voidful/fineweb-zhtw/tree/main).
本專案提供 **Fineweb-zhtw** 資料集,為大規模的繁體中文網路文本資料。此資料集基於 HuggingFaceFW/fineweb-2 並經由 [mtkresearch/fineweb-zhtw](https://github.com/voidful/fineweb-zhtw/tree/main) 進行修改。
[https://github.com/voidful/fineweb-zhtw/tree/main](https://github.com/voidful/fineweb-zhtw/tree/main)
## Dataset Details / 資料集細節
- **Data Size:** 107 GB of text data
- **Number of Entries:** 48,058,113
- **Estimated Tokens:** 72B
- **資料量:** 107 GB 純文字資料
- **資料筆數:** 48,058,113 筆
- **預估 Token 數:** 72B
## Citation / 引用
For academic citations, please use the following BibTeX entry:
```bibtex
@misc{lin2024finewebzhtwscalablecurationtraditional,
title={FineWeb-zhtw: Scalable Curation of Traditional Chinese Text Data from the Web},
author={Cheng-Wei Lin and Wan-Hsuan Hsieh and Kai-Xin Guan and Chan-Jan Hsu and Chia-Chen Kuo and Chuan-Lin Lai and Chung-Wei Chung and Ming-Jen Wang and Da-Shan Shiu},
year={2024},
eprint={2411.16387},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.16387},
}
```
## Additional Information / 附加資訊
For further questions or details, please refer to the repository or contact the maintainers. me@eric-lam.com
如有任何疑問或需進一步資訊,請參考本專案或聯絡維護者。me@eric-lam.com
# Fineweb-zhtw
## 概述
本仓库收录了**Fineweb-zhtw**数据集,这是一套从网络爬取得到的大规模繁体中文文本数据集。该数据集基于HuggingFaceFW/fineweb-2构建,并经由[mtkresearch/fineweb-zhtw](https://github.com/voidful/fineweb-zhtw/tree/main)进行了适配修改。
[https://github.com/voidful/fineweb-zhtw/tree/main](https://github.com/voidful/fineweb-zhtw/tree/main)
## 数据集详情
- **数据规模:** 107 GB 纯文本数据
- **条目总数:** 48,058,113 条
- **预估Token(Token)数:** 72B
## 引用
如需在学术成果中引用本数据集,请使用以下BibTeX条目:
bibtex
@misc{lin2024finewebzhtwscalablecurationtraditional,
title={Fineweb-zhtw: Scalable Curation of Traditional Chinese Text Data from the Web},
author={Cheng-Wei Lin and Wan-Hsuan Hsieh and Kai-Xin Guan and Chan-Jan Hsu and Chia-Chen Kuo and Chuan-Lin Lai and Chung-Wei Chung and Ming-Jen Wang and Da-Shan Shiu},
year={2024},
eprint={2411.16387},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.16387},
}
## 附加信息
如有任何疑问或需获取更多细节,请参阅本仓库或联系维护者:me@eric-lam.com
提供机构:
maas
创建时间:
2025-02-28
搜集汇总
数据集介绍

背景与挑战
背景概述
fineweb-zhtw是一个大规模的繁体中文网络文本数据集,包含107GB的文本数据,48,058,113条文本条目,预估Token数为72B。该数据集基于HuggingFaceFW/fineweb-2并经过修改,适用于学术研究,采用Apache License 2.0许可。
以上内容由遇见数据集搜集并总结生成



