five

fineweb-zhtw

收藏
魔搭社区2025-12-18 更新2025-03-08 收录
下载链接:
https://modelscope.cn/datasets/voidful/fineweb-zhtw
下载链接
链接失效反馈
官方服务:
资源简介:
# Fineweb-zhtw ## Overview / 概覽 This repository contains the **Fineweb-zhtw** dataset, a large-scale collection of Traditional Chinese text data mined from the web. It is built upon the HuggingFaceFW/fineweb-2 dataset with modifications provided by [mtkresearch/fineweb-zhtw](https://github.com/voidful/fineweb-zhtw/tree/main). 本專案提供 **Fineweb-zhtw** 資料集,為大規模的繁體中文網路文本資料。此資料集基於 HuggingFaceFW/fineweb-2 並經由 [mtkresearch/fineweb-zhtw](https://github.com/voidful/fineweb-zhtw/tree/main) 進行修改。 [https://github.com/voidful/fineweb-zhtw/tree/main](https://github.com/voidful/fineweb-zhtw/tree/main) ## Dataset Details / 資料集細節 - **Data Size:** 107 GB of text data - **Number of Entries:** 48,058,113 - **Estimated Tokens:** 72B - **資料量:** 107 GB 純文字資料 - **資料筆數:** 48,058,113 筆 - **預估 Token 數:** 72B ## Citation / 引用 For academic citations, please use the following BibTeX entry: ```bibtex @misc{lin2024finewebzhtwscalablecurationtraditional, title={FineWeb-zhtw: Scalable Curation of Traditional Chinese Text Data from the Web}, author={Cheng-Wei Lin and Wan-Hsuan Hsieh and Kai-Xin Guan and Chan-Jan Hsu and Chia-Chen Kuo and Chuan-Lin Lai and Chung-Wei Chung and Ming-Jen Wang and Da-Shan Shiu}, year={2024}, eprint={2411.16387}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.16387}, } ``` ## Additional Information / 附加資訊 For further questions or details, please refer to the repository or contact the maintainers. me@eric-lam.com 如有任何疑問或需進一步資訊,請參考本專案或聯絡維護者。me@eric-lam.com

# Fineweb-zhtw ## 概述 本仓库收录了**Fineweb-zhtw**数据集,这是一套从网络爬取得到的大规模繁体中文文本数据集。该数据集基于HuggingFaceFW/fineweb-2构建,并经由[mtkresearch/fineweb-zhtw](https://github.com/voidful/fineweb-zhtw/tree/main)进行了适配修改。 [https://github.com/voidful/fineweb-zhtw/tree/main](https://github.com/voidful/fineweb-zhtw/tree/main) ## 数据集详情 - **数据规模:** 107 GB 纯文本数据 - **条目总数:** 48,058,113 条 - **预估Token(Token)数:** 72B ## 引用 如需在学术成果中引用本数据集,请使用以下BibTeX条目: bibtex @misc{lin2024finewebzhtwscalablecurationtraditional, title={Fineweb-zhtw: Scalable Curation of Traditional Chinese Text Data from the Web}, author={Cheng-Wei Lin and Wan-Hsuan Hsieh and Kai-Xin Guan and Chan-Jan Hsu and Chia-Chen Kuo and Chuan-Lin Lai and Chung-Wei Chung and Ming-Jen Wang and Da-Shan Shiu}, year={2024}, eprint={2411.16387}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.16387}, } ## 附加信息 如有任何疑问或需获取更多细节,请参阅本仓库或联系维护者:me@eric-lam.com
提供机构:
maas
创建时间:
2025-02-28
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
fineweb-zhtw是一个大规模的繁体中文网络文本数据集,包含107GB的文本数据,48,058,113条文本条目,预估Token数为72B。该数据集基于HuggingFaceFW/fineweb-2并经过修改,适用于学术研究,采用Apache License 2.0许可。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作