five

Unicode 17.0 + Emoji 17.0 Complete Dataset

收藏
github2026-03-14 更新2026-03-15 收录
下载链接:
https://github.com/SeekDeeply/unicode-17.0-txt-tsv-complete-dataset-with-emoji
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库提供绝对最完整、专业处理的Unicode 17.0和Emoji 17.0数据集,直接源自官方UCD和Unihan源文件。包含每一个已分配字符、所有控制符、66个非字符、代理区/私用区边界以及完整的Emoji 17.0数据(全限定、最小限定、未限定、组件)。适用于字体开发者、语言学家、文本处理研究人员以及任何需要终极Unicode参考的人。

This repository provides the most comprehensive and professionally curated Unicode 17.0 and Emoji 17.0 datasets, directly sourced from official UCD and Unihan source files. The datasets include every assigned character, all control characters, 66 non-characters, surrogate range and private use area boundaries, as well as complete Emoji 17.0 data covering fully qualified, minimally qualified, unqualified, and component emojis. This resource is tailored for font developers, linguists, text processing researchers, and any individual in need of the ultimate Unicode reference material.
创建时间:
2026-02-16
原始信息汇总

Unicode 17.0 + Emoji 17.0 完整数据集概述

数据集基本信息

  • 数据集名称: Unicode 17.0 + Emoji 17.0 Complete Dataset (Unicode 17.0 + Emoji 17.0 完整数据集)
  • 版本: Unicode 17.0 与 Emoji 17.0(基于2025年9月发布的Unicode 17.0)
  • 数据来源: 官方UCD和Unihan源文件
  • 数据大小: 约16MB
  • 许可证:
    • 项目采用Apache License 2.0(详见LICENSE文件)
    • 原始Unicode数据采用Unicode License v3(详见LICENSE_UNICODE文件)
  • 发布地址: https://github.com/SeekDeeply/unicode-17.0-txt-tsv-complete-dataset-with-emoji
  • 最新发布: https://github.com/SeekDeeply/unicode-17.0-txt-tsv-complete-dataset-with-emoji/releases

核心特性

  • 绝对完整性: 包含所有已分配字符、所有控制字符、66个非字符、代理区/私用区边界。
  • 最新版本: 基于Unicode 17.0(2025年9月发布)。
  • 多格式可用: 提供机器可读TSV、人类可读排版、单行连续字符串、按区块分行版。
  • 精确分类: 每个字符按官方区块名标注(中英双语)。
  • Emoji全覆盖: 包含所有状态:fully‑qualified、minimally‑qualified、unqualified、component。
  • 原汁原味: 控制字符原样保留,无过滤,无修改。

数据集内容结构

Unicode 17.0 数据集

位于 /Unicode-17.0-Complete-Dataset/ 目录下。

主要文件:

  • unicode_17.0_machine.tsv (TSV格式, 5.2 MB, 142,610行): 适用于程序导入/数据库。
  • unicode_17.0_human.txt (文本格式, 10 MB, 约570,000行): 适用于阅读/参考/分享。
  • unicode_17.0_string.txt (原始格式, 512 KB, 1行): 适用于字符串处理/测试。
  • unicode_17.0_string_blocked.txt (文本格式, 约512 KB, 约330行): 适用于按区块分隔的探索。

Emoji 17.0 数据集

位于 /Emoji-17.0-Complete-Dataset/ 目录下。

主要文件:

  • emoji_17.0_full_machine.tsv (428 KB, 5,228行): 完整数据集(机器可读)。
  • emoji_17.0_full_human.txt (621 KB, 26,358行): 完整数据集(人类可读)。
  • emoji_17.0_single_machine.tsv (61 KB, 1,400行): 单码点数据集(机器可读)。
  • emoji_17.0_single_human.txt (111 KB, 约5,600行): 单码点数据集(人类可读)。
  • emoji_17.0_string.txt (5.4 KB, 1行): 单行字符串。
  • emoji_17.0_string_annotated.txt (5.6 KB, 约20行): 带注释的字符串。

Emoji状态分布:

  • ✅ fully-qualified: 3,953个(官方RGI Emoji)
  • ⚠️ minimally-qualified: 174个(不完整序列)
  • ❓ unqualified: 71个(文本符号)
  • 🧩 component: 25个(修饰符组件)
  • 总计: 5,223个(包含所有状态)

辅助文件

  • checksum_sha256.txt: 包含所有文件的SHA-256校验值,用于数据完整性验证。
  • NOTICE.txt: 声明文件。
  • Screenshots/目录: 包含数据集预览截图。

适用人群

  • 字体开发者
  • 语言学家
  • 文本处理研究人员
  • 任何需要终极Unicode参考的人员

数据验证

所有文件均附带SHA-256校验值,可使用提供的命令在Linux/macOS或Windows PowerShell中进行验证。

搜集汇总
数据集介绍
main_image_url
构建方式
在数字文本处理与字符编码领域,Unicode标准作为全球通用的字符集规范,其完整数据集的构建至关重要。本数据集严格遵循Unicode联盟发布的官方UCD(Unicode Character Database)和Unihan源文件,通过专业化的数据提取与整合流程,系统性地收录了Unicode 17.0版本中每一个已分配的字符、全部控制符、66个非字符以及代理区与私用区的边界定义。同时,数据集还融入了Emoji 17.0标准的完整内容,涵盖了全限定、最小限定、未限定及组件等所有状态的表情符号,确保了数据来源的权威性与内容的全面性。
特点
该数据集的核心特征体现在其无与伦比的完整性与精心的结构化设计。它不仅完整收录了Unicode 17.0规范下的所有字符元素,包括常被忽略的控制字符与非字符,更提供了机器可读的TSV格式与人类可读的文本格式等多种数据形态,以适应不同的应用场景。每个字符均附有官方的区块名称中英文标注,实现了精确的分类与检索。Emoji部分则完整呈现了不同修饰状态的表情符号,为研究和应用提供了细致入微的参考依据。
使用方法
对于字体开发、自然语言处理或多语言文本分析的研究者而言,本数据集提供了即开即用的便捷访问方式。用户可通过克隆GitHub仓库或直接下载发布版文件获取数据,并依据需求选择相应的数据文件:TSV格式便于程序化导入与数据库集成;排版清晰的文本文件适合人工查阅与分享;而单行连续字符串文件则为文本渲染与兼容性测试提供了便利。数据集附带的SHA-256校验机制保障了数据传输与存储的完整性,确保了研究工作的可靠基础。
背景与挑战
背景概述
Unicode作为全球文本处理的基石,其标准化工作由Unicode联盟主导,旨在为世界上所有书写系统的字符提供统一的编码方案。Unicode 17.0 + Emoji 17.0 Complete Dataset由SeekDeeply于2025年9月整理发布,基于官方Unicode字符数据库(UCD)和Unihan源文件构建。该数据集的核心研究问题在于提供绝对完整且经过专业处理的Unicode 17.0及Emoji 17.0参考集合,涵盖每一个已分配字符、控制符、非字符及完整的表情符号数据。它对字体开发、语言学研究和跨语言文本处理等领域具有深远影响,为相关技术实现提供了权威的数据基础。
当前挑战
在数字时代,多语言文本与表情符号的准确处理面临着字符集覆盖不全、编码状态复杂等挑战。该数据集致力于解决Unicode标准在现实应用中的完整性与一致性问题,其构建过程需克服官方数据源的庞杂性,确保所有字符(包括控制符、代理区及私用区边界)的无损整合。同时,Emoji数据的收录需精确区分全限定、最小限定、未限定及组件等多种状态,这对数据清洗与分类的严谨性提出了极高要求,以保障数据集在机器可读与人类可读格式下的双重可靠性。
常用场景
经典使用场景
在数字文本处理与多语言计算领域,Unicode 17.0 + Emoji 17.0 完整数据集作为字符编码的权威参考,其经典使用场景集中于字体开发与文本渲染系统的构建。开发者借助该数据集精确获取每个字符的编码点、区块分类及属性信息,确保跨平台、跨语言的文本显示一致性与兼容性,为全球化软件应用奠定坚实基础。
实际应用
在实际应用中,该数据集被广泛集成于操作系统、编程语言库及网络协议中,支撑着搜索引擎、社交媒体平台和即时通讯工具的文本处理功能。例如,Emoji 17.0的全面覆盖使得表情符号的自动识别、推荐与渲染更加精准,提升了用户体验与数字内容的表达丰富性。
衍生相关工作
围绕该数据集衍生的经典工作包括Unicode合规性测试套件、多语言字体生成工具以及自然语言处理中的字符嵌入模型。这些工作不仅深化了字符编码在人工智能领域的应用,还催生了如emoji语义分析、跨脚本机器翻译等创新研究方向,持续拓展数字文本技术的边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作