five

提供看“声”(红色)读“音”的视觉识别系统及标志判断标准数据集

收藏
河北数据知识产权登记系统2025-09-16 收录
下载链接:
https://dataip.hebamr.cn/#/changeDetialCertical?pType=登记&cType=登记&id=2dff5efea7a8eafa5d8544f92a3fcebb
下载链接
链接失效反馈
官方服务:
资源简介:
基于十万多信息字数据字料库的处理方法,录入文字建立字形库,将字形库中每个文字拆分后建立成包括组合同形字、部首、部件、字根字以及文字的字形数据库; 将字形数据库中的文字、组合同形字、部首录入对应的拼音形成字音库; 以字根字为基础字与字形数据库中的组合同形字、部首和部件组合后形成信息字; 对信息字归纳分类后形成文字基因图谱库; 将文字基因图谱库中的信息字进行标志,并建立标志库; 使信息字的特征信息可视化,以便于对所有信息字进行特征关联学习。 先对文字进行多层、细化的字根和字音对应标记,再对字根字、同形字、同音字、异音字等的精确、全面的信息分类和标记。 使用颜色、符号和数字标记,使得信息字的分类更加系统和直观,便于分析和使用。具有多种标记符号,通过使用符号如≈、=、≠以及不同颜色标记,方法能够清晰地区分不同类型的字和读音,使得处理大数据时能够快速识别和分析字词之间的关系。实际解决的技术问题是如何建立读音视觉判断标准,提供一种看“声”可读的视觉识别体系,达到文生视觉辨识的效果,更准确更高效的信息字的处理方法。 中文字基因图谱库包括独体字根字、组合同形字同音、组合同形字不同音、同部首同音、同部首不同音和独体字。 对含同形与字根字读音相同和含同形与字根字读音不同的信息字分类,并采用三种数学符号≈、=、≠进行标记,其中,≈标记为其标形,以此形为字根字,=与≠为其标音,=代指为同音字,≠代指为异音字。 标志采用颜色标记: 不可拆分的字根字用颜色紫色及符号≈标志; 组合字根字中含读音相同的字用颜色粉色、符号=及数字标志; 组合字根字中无读音相同的字,用颜色蓝色及符号≠标志; 组合字中含读音相同的字用颜色红色或黄色、符号=及数字标志; 组合字中无读音相同的字,用颜色黑色及≠标志; 不可拆分的字用颜色金色标志; 其中,数字几表示有几个读音相同的字。 将《通用规范汉字表》、《新华字典》第12版、《现代汉语词典》第7版、《辞海》第六版、《中日韓共同常用808漢字》、《汉字海》全部102434个简体字、繁体字、异体字,日文、韩文、越南文等汉字录入建立字形库。 读音唯一的单音字用底色绿色及单个方框标志; 读音只是声调不同的多调字用底色浅青+圆圈数字+多个方框+单斜杠标志,圆圈数字表示多调字有几个声调; 读音有两个以上的多音字用底色青色+数字+多方框+双斜杠标志,数字表示多音字有几个读音。 颜色具体为暖色系紫色、粉红色、红色、黄色; 颜色为冷色系蓝色、黑色、金色、白色。 对简体字和繁体字、异体字进行字体粗细和双实线、双虚线标记。 对常用字和非常用字、辞海字、汉字海字采用字号大中小进行标记。 基于大数据字联网信息字的处理方法底层逻辑还可延伸至所有文字及词根体系语种,包括英文在内的多种语言,利用全球字联网、词联网进行类推延伸,字中、词中暗含音、义用标志明示,实现信息可视化:覆盖英文等所有文字及词根体系语种;按文字及词根,用标志法、符号化予以展现,即按含同字同音、同字不同音、同词根同音、同词根不同音、同字同义、同字不同义、同词根同义、同词根不同义归类;按文字、词根语系语音辨识、语义识别标准:词根字母颜色、词根发音、词义色彩标志。
提供机构:
罗宇翔
创建时间:
2025-09-01
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集构建了一个汉字视觉识别系统,通过字形拆分、拼音录入和颜色符号标记(如紫色≈、粉色=、蓝色≠等)对十万多汉字进行分类,形成文字基因图谱库。系统采用多维度标记方法(颜色、符号、数字)区分字根、同音字、异音字等,并支持扩展至其他语种的字词处理。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作