five

lgi2p/finefreq

收藏
Hugging Face2025-12-11 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/lgi2p/finefreq
下载链接
链接失效反馈
官方服务:
资源简介:
FineFreq是一个大规模多语言字符频率数据集,源自FineWeb和FineWeb2语料库中的96.6万亿字符,涵盖1900多种语言。它提供了每种语言的频率表,具有年度时间分辨率,覆盖2013年至2025年期间。数据集包含每个语言-脚本对的字符频率信息,包括Unicode字符、类别、名称以及各年份的频率统计。

FineFreq is a large-scale multilingual character frequency dataset derived from 96.6 trillion characters across 1900+ languages, built from the FineWeb and FineWeb2 corpora. It provides per-language frequency tables with year-level temporal resolution, covering the period 2013–2025. The dataset includes character frequency information per language-script pair, including Unicode characters, categories, names, and yearly frequency statistics.
提供机构:
lgi2p
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作