five

Unicode code point frequency data

收藏
github2025-11-01 更新2025-11-08 收录
下载链接:
https://github.com/w3c/ift-encoder-data
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个从全网收集的Unicode码点频率数据集,包含单个码点和码点对的频率统计,每个频率计数表示该码点或码点对在网页中出现的次数。数据按语言和文字脚本分类,采用Riegeli格式编码和protobuf序列化。

This is a Unicode code point frequency dataset collected from the entire Internet. It includes frequency statistics for both individual code points and code point pairs, where each frequency count represents the number of times the corresponding code point or code point pair appeared on web pages. The data is categorized by language and writing script, encoded in Riegeli format and serialized with Protobuf.
创建时间:
2025-10-24
原始信息汇总

Unicode 码点频率数据集概述

数据集基本信息

  • 数据集名称: Unicode code point frequency data
  • 数据版本: 1.0
  • 许可证: W3C Software and Document License
  • 许可证地址: https://www.w3.org/copyright/software-license-2023/

数据内容描述

  • 包含从全网收集的 Unicode 码点频率数据
  • 提供单个码点和码点对的频率统计
  • 频率计数表示特定码点或码点对出现的网页数量
  • 码点对不需要在源页面中相邻出现即可被计数

数据文件格式

  • 使用 Riegeli 格式编码
  • 每条记录为序列化的 protobuf
  • 协议模式文件: https://www.gstatic.com/fonts/unicode_frequency/v1/unicode_count.proto
  • 码点对记录包含两个 codepoints 字段
  • 相同码点重复出现的记录提供该码点的单独频率

文件命名规范

  • 按语言分类: Language_<语言代码>.riegeli(使用 BCP 47 标签)
  • 按文字分类: Script_<文字名称>.csv
  • 大文件可能分片存储,格式为: filename.riegeli-*-of-*

数据处理工具

  • 主工具库: ift-encoder
  • 工具库地址: https://github.com/w3c/ift-encoder
  • 频率提取工具: freq_data_to_sorted_codepoints(可提取单个码点频率并输出文本格式)
  • C++ API: ift-encoder util::LoadFrequenciesFromRiegeli(提供加载数据文件的 C++ 接口)

数据副本位置

  • 主托管地址: https://www.gstatic.com/fonts/unicode_frequency/v1/
  • 文件列表: https://www.gstatic.com/fonts/unicode_frequency/v1/DATA_FILE_LIST

数据收集方法

  • 从网页搜索索引中随机抽样页面
  • 分析页面确定编写语言,低置信度的语言检测页面被丢弃
  • 根据检测到的语言选择关联的文字脚本
  • 对页面上的每个唯一码点对,相关文字和语言的计数增加 1
  • 每个唯一码点对在每页中仅计数一次
  • 在文字内,码点被过滤为该文字使用的码点
  • 除单独的 CJK 文字外,还提供综合的 CJK 码点频率计数(Script_CJK.riegeli)
  • Script_emoji.csv 和 Script_symbols.csv 基于所有文字的计数
  • fallback.csv 收集所有文字中未关联任何其他文字的码点计数
搜集汇总
数据集介绍
main_image_url
构建方式
在字符编码研究领域,Unicode码点频率数据集采用多阶段采样方法构建。首先从网络搜索索引中随机抽取网页样本,通过语言检测算法筛选高置信度的文本内容,并基于检测结果关联对应的书写系统。每个页面中出现的唯一码点对会被记录,无论其在文本中的相对位置如何,同一页面内重复出现的码点对仅计数一次。数据集还参照专业字符子集定义对各书写系统的码点进行过滤,并针对CJK文字系统提供跨语言聚合统计。
使用方法
研究人员可通过配套的ift-encoder工具库解析数据集,其中freq_data_to_sorted_codepoints工具可将二进制数据转换为可读文本格式。加载分片文件时需在文件名后附加@*通配符标识,如Language_ja.riegeli@*。C++接口LoadFrequenciesFromRiegeli提供编程级数据访问支持,同时数据集在云端镜像存储,可通过静态地址直接获取原始文件。这种多层次使用方案兼顾了可视化分析与程序化处理的不同需求。
背景与挑战
背景概述
Unicode码点频率数据集由万维网联盟(W3C)于2023年主导构建,旨在系统量化全球网络文本中Unicode字符及其组合的出现规律。该数据集通过大规模网页采样与语言检测技术,覆盖多语言环境下的字符分布特征,为字符编码优化、字体子集生成及多语言信息处理研究提供了关键基准数据。其基于概率统计的架构显著推动了数字文本生态系统的标准化进程,成为跨语言计算语言学与字符集工程领域的重要基础设施。
当前挑战
该数据集核心挑战在于解决多语言文本中字符共现模式的量化难题,需克服网页字符编码异构性、语言检测置信度波动对数据纯净度的影响。构建过程中面临采样偏差控制的双重压力:一方面需确保字符对统计不受文本线性位置约束,另一方面需处理象形文字体系(如中日韩统一表意文字)跨语言聚合时的权重分配问题。此外,符号与表情符号等非限定脚本的归类逻辑进一步增加了数据维度整合的复杂性。
常用场景
经典使用场景
在计算语言学与字符编码研究领域,Unicode码点频率数据集为分析全球文字系统的使用分布提供了关键支撑。该数据集通过统计网页中Unicode码点及其组合的出现频次,成为字体设计、输入法优化等场景中的基准工具,尤其在多语言文本处理中,能够精确反映不同书写系统的实际使用特征。
解决学术问题
该数据集有效解决了字符使用模式量化研究的核心难题,为语言演化、文字普及度分析提供了实证基础。通过跨网页的大规模采样,它填补了传统字符频率数据在覆盖范围和时效性上的空白,使得研究者能够深入探索数字环境下文字系统的动态变迁,对推动计算文字学与跨文化通信研究具有显著意义。
实际应用
在实际应用中,该数据集直接服务于智能字体子集生成、搜索引擎文本优化等工程任务。例如,基于特定语言的码点频率数据,可动态调整网页字体加载策略,显著提升多语言场景下的渲染效率与用户体验,同时为国际化软件的字库管理提供数据驱动的决策依据。
数据集最近研究
最新研究方向
在全球化数字文本处理领域,Unicode码点频率数据集正推动多语言计算模型的前沿探索。该数据集通过统计网页中Unicode字符及其组合的出现频次,为自然语言处理中的稀缺语言资源建模提供支撑,尤其在低资源语言的脚本识别与字体优化方向引发关注。随着多模态人工智能的发展,该数据被广泛应用于改进搜索引擎的字符渲染算法,并助力解决跨境数字内容中的编码兼容性问题。其基于网络语料的动态采集方法,更为研究数字生态中的文字使用演化规律提供了量化依据,对保护语言多样性具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作