sylvainlapeyrade/kanji_english_meaning
收藏Hugging Face2024-04-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sylvainlapeyrade/kanji_english_meaning
下载链接
链接失效反馈官方服务:
资源简介:
English to Kanji Diffusion数据集设计用于图像生成任务,其中输入是英文单词,输出是对应的Kanji字符图像。它包括从XML源解析的数据以及处理后的SVG、PNG和JPG格式的图像。数据集由Sylvain Lapeyrade策划,使用MIT许可证,语言为英语和日语(Kanji)。数据集适用于开发机器学习模型,特别是文本到图像的翻译任务,教育工具和设计应用程序,这些应用程序需要基于英文描述的Kanji字符的视觉表示。
English to Kanji Diffusion数据集设计用于图像生成任务,其中输入是英文单词,输出是对应的Kanji字符图像。它包括从XML源解析的数据以及处理后的SVG、PNG和JPG格式的图像。数据集由Sylvain Lapeyrade策划,使用MIT许可证,语言为英语和日语(Kanji)。数据集适用于开发机器学习模型,特别是文本到图像的翻译任务,教育工具和设计应用程序,这些应用程序需要基于英文描述的Kanji字符的视觉表示。
提供机构:
sylvainlapeyrade
原始信息汇总
数据集卡片 for English to Kanji Diffusion
数据集详情
数据集描述
English to Kanji Diffusion 数据集旨在用于图像生成任务,其中输入是英文单词,输出是对应的汉字图像。它包括从 XML 源解析的数据和处理后的 SVG、PNG 和 JPG 格式的图像。
- 创建者: Sylvain Lapeyrade
- 语言: 英语,日语(汉字)
- 许可证: MIT 许可证
数据集结构
数据集字段
image: 包含 JPG 格式的汉字图像文件(可以通过 GitHub 代码轻松转换为其他格式)。text: 包含与汉字对应的英文单词。
数据集划分
- 训练集: 包含 6,413 个样本,专注于多样化的汉字及其英文含义。
数据集创建
数据收集和处理
数据从 KANJIDIC 和 KanjiVG 项目中收集,处理成 SVG 文件,然后转换成适合机器学习应用的图像格式。整个过程强调汉字表示的准确性。
数据来源
数据来源于公共汉字字符数据库和致力于汉字传播和教育使用的项目。
标注
标注过程
数据集不包含超出图像自动生成和用相应英文描述标注的注释。其他语言的描述也可能存在于 XML 文件中。
标注者
数据和图像由为此目的设计的脚本自动生成和标注。
偏差、风险和限制
数据集并未全面覆盖所有汉字及其细微差别。用户应注意数据集专注于基本和常用的汉字。此外,短语 <i>"a kanji meaning..."</i> 非常具体。



