Chinese Calligraphy Image Dataset|中国书法数据集|人工智能数据集

arXiv2020-12-03 更新2024-06-21 收录

中国书法

人工智能

下载链接：

https://github.com/zhuojg/chinese-calligraphy-dataset

下载链接

链接失效反馈

资源简介：

本数据集名为‘Chinese Calligraphy Image Dataset’，由同济大学设计人工智能实验室创建，包含138,499张由19位书法家书写的汉字图像，涵盖7328个不同汉字。数据集通过互联网收集，用于训练名为CalligraphyGAN的条件生成对抗网络，以生成具有美学价值的抽象艺术作品。该数据集主要应用于通过AI技术创造独特的餐饮体验，如在餐厅中通过投影展示定制的艺术作品。

提供机构：

同济大学设计人工智能实验室

创建时间：

2020-12-03

AI搜集汇总

数据集介绍

构建方式

在探索人工智能在创意艺术领域应用的背景下，本研究构建了一个专门的数据集——Chinese Calligraphy Image Dataset。该数据集通过收集19位书法家的138,499幅书法图像，涵盖了7328个不同的汉字字符。为了训练Conditional Generative Adversarial Networks（GAN），选取了1000个字符，每个字符至少有25种不同的书写图像，以此作为控制条件，进而生成全新的字符。

特点

该数据集的特点在于其独特的艺术性和文化内涵，通过汉字书法的视觉艺术形式，将字符本身转化为具有美学价值的抽象画作。此外，数据集在生成抽象艺术作品时，融入了深度学习和自然语言处理技术，使得生成的艺术作品不仅具有审美价值，而且富含内在意义。其创新性地使用了BERT算法将输入文本映射到五个字符上，以此作为生成新字符的依据，确保了艺术作品的多样性和相关性。

使用方法

使用该数据集时，首先需要通过BERT模型生成输入文本和1000个字符的嵌入向量，然后计算文本嵌入向量与字符嵌入向量之间的相似度，选出最相似的五个字符作为生成新字符的依据。接着，利用训练好的CalligraphyGAN模型，以这五个字符为控制条件生成新的字符。最后，通过一系列算法美化处理，如去噪、风格转换等，将生成的字符转化为具有不同风格的艺术作品。

背景与挑战

背景概述

中国书法图像数据集（Chinese Calligraphy Image Dataset）的构建，是在深度学习技术迅猛发展的背景下，由朱俊岗、范凌和王剑南等研究人员于2020年提出并实施的。该数据集的创建，旨在通过条件生成对抗网络（Conditional Generative Adversarial Networks, GAN）和上下文神经网络语言模型，生成具有内在意义和审美价值的抽象艺术品。这一研究不仅汲取了中国书法这一独特视觉艺术形式的美学内涵，还受到了抽象表现主义绘画的启发。数据集包含了19位书法家的138,499幅书法图像，涵盖了7328个不同的字符。该数据集的提出，对于人工智能在创造力领域的探索具有重要的研究价值和实践意义。

当前挑战

在构建中国书法图像数据集的过程中，研究人员面临着多项挑战。首先，如何有效地将书法字符与抽象艺术品的生成联系起来，保持字符的美学特征，是一大难题。其次，数据集的局限导致需要开发一种基于BERT的算法，将任意数量的字符映射到1000个字符中的五个，以保证生成过程的准确性和多样性。此外，为了提高生成图像的质量和多样性，研究人员还需优化算法，如去噪、风格转换等，以满足用户对艺术审美的个性化需求。

常用场景

经典使用场景

在艺术生成领域，Chinese Calligraphy Image Dataset数据集的运用尤为引人注目。该数据集通过结合条件生成对抗网络和上下文神经网络语言模型，不仅实现了从文字到抽象艺术作品的转化，还赋予了艺术作品深层的意义和审美价值。

解决学术问题

该数据集解决了传统艺术创作中难以融入现代技术手段的问题，为艺术生成领域提供了新的研究方向。通过此数据集，研究者能够探索人工智能在创造力方面的潜能，推动AI在视觉艺术领域的应用。

衍生相关工作

基于该数据集，衍生出了一系列相关研究工作。研究者不仅探索了书法艺术与抽象表现主义绘画的结合，还开发了智能布局算法以生成最终的艺术作品，这些都进一步拓宽了人工智能在艺术创作领域的应用范围。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Data_on_Data_Analysts

我们正在探索数据分析师职位的就业市场趋势：需求技能、薪资变化和招聘模式。该数据集汇编了美国数据分析师职位的招聘信息，直接来源于Google的职位搜索结果。数据收集始于2022年11月4日，并持续增长，每天新增约100个职位信息，提供了当前就业市场的持续更新快照。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

Breast Ultrasound Images (BUSI)

小型（约500×500像素）超声图像，适用于良性和恶性病变的分类和分割任务。

github 收录

CCPD

CCPD是一个大型的、多样化的、经过仔细标注的中国城市车牌开源数据集。CCPD数据集主要分为CCPD2019数据集和CCPD2020(CCPD-Green)数据集。CCPD2019数据集车牌类型仅有普通车牌(蓝色车牌)，CCPD2020数据集车牌类型仅有新能源车牌(绿色车牌)。在CCPD数据集中，每张图片仅包含一张车牌，车牌的车牌省份主要为皖。CCPD中的每幅图像都包含大量的标注信息，但是CCPD数据集没有专门的标注文件，每张图像的文件名就是该图像对应的数据标注。

github 收录