maxidl/FineNews-unfiltered
收藏Hugging Face2024-06-16 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/maxidl/FineNews-unfiltered
下载链接
链接失效反馈官方服务:
资源简介:
FineNews-unfiltered数据集是基于Common Crawl News构建的,类似于FineWeb,但专注于新闻数据。该数据集包含2024年5月、4月和3月的新闻数据,涵盖了多种语言,如英语、西班牙语、俄语、意大利语、德语、阿拉伯语、法语、波兰语、葡萄牙语、土耳其语、希腊语、越南语、罗马尼亚语、中文、乌克兰语、韩语、印地语和荷兰语。数据集是未经过滤的版本,仅应用了URL过滤。README还提供了每个数据集的文档数量和磁盘大小,以及一些语言的示例统计数据和顶级域名的分布情况。
FineNews-unfiltered数据集是基于Common Crawl News构建的,类似于FineWeb,但专注于新闻数据。该数据集包含2024年5月、4月和3月的新闻数据,涵盖了多种语言,如英语、西班牙语、俄语、意大利语、德语、阿拉伯语、法语、波兰语、葡萄牙语、土耳其语、希腊语、越南语、罗马尼亚语、中文、乌克兰语、韩语、印地语和荷兰语。数据集是未经过滤的版本,仅应用了URL过滤。README还提供了每个数据集的文档数量和磁盘大小,以及一些语言的示例统计数据和顶级域名的分布情况。
提供机构:
maxidl



