vietnamese_handwritten

Hugging Face2024-08-30 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Daominhwysi/vietnamese_handwritten

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个部分：CinamonAI和VNonDB。每个部分都有对应的图像和标签文件（labels.json）。图像文件是手写的越南语图像，标签文件包含图像文件名及其对应的标签。数据集的目的是用于手写越南语识别任务。

创建时间：

2024-08-27

原始信息汇总

数据集概述

数据下载与解压

数据集文件可通过以下Python代码下载并解压：

python import requests import zipfile import os

url = https://huggingface.co/datasets/Daominhwysi/VNonDB/resolve/main/vn_handwritten_images.zip?download=true file_name = vn_handwritten_images.zip

response = requests.get(url, stream=True)

if response.status_code == 200: with open(file_name, wb) as file: for chunk in response.iter_content(chunk_size=8192): file.write(chunk) print(f下载成功: {file_name}) else: print(f无法下载文件。错误代码: {response.status_code})

zip_file_path = /content/vn_handwritten_images.zip extract_to_dir = /content/datasets

if not os.path.exists(extract_to_dir): os.makedirs(extract_to_dir)

with zipfile.ZipFile(zip_file_path, r) as zip_ref: zip_ref.extractall(extract_to_dir)

print(f解压成功到目录: {extract_to_dir})

标签数据读取

从 `labels.json` 读取标签数据 (CinamonAI)

python import json import pandas as pd import logging

try: with open(/content/datasets/cinamonai/labels.json, r) as file: labels = json.load(file) df_1 = pd.DataFrame(list(labels.items()), columns=[file_name, label]) except Exception as e: logging.error(f"加载标签时出错: {e}")

df_1[file_name] = df_1[file_name].apply(lambda x: f/content/datasets/cinamonai/data/{x}.jpeg)

df_1.head()

从 `labels.json` 读取标签数据 (VNonDB)

python import json import pandas as pd import logging

try: with open(/content/datasets/vnondb/labels.json, r) as file: labels = json.load(file) df_2 = pd.DataFrame(list(labels.items()), columns=[file_name, label]) except Exception as e: logging.error(f"加载标签时出错: {e}")

df_2[file_name] = df_2[file_name].apply(lambda x: f/content/datasets/vnondb/outputs_image/{x}.jpeg)

df_2.head()

显示图像和标签

从 `df_1` 显示图像

python import pandas as pd import random from PIL import Image import matplotlib.pyplot as plt

random_row = df_1.sample(n=1).iloc[0] file_path = random_row[file_name] image = Image.open(file_path).convert(RGB) plt.figure(figsize=(20, 10)) plt.imshow(image) plt.axis(off) plt.show()

print(f"标签为: {random_row[label]}")

从 `df_2` 显示图像

python import pandas as pd import random from PIL import Image import matplotlib.pyplot as plt

random_row = df_2.sample(n=1).iloc[0] file_path = random_row[file_name] image = Image.open(file_path).convert(RGB) plt.figure(figsize=(20, 10)) plt.imshow(image) plt.axis(off) plt.show()

print(f"标签为: {random_row[label]}")

合并两个数据集

python df = pd.concat([df_1, df_2], ignore_index=True) df.head()

搜集汇总

数据集介绍

构建方式

vietnamese_handwritten数据集通过整合来自CinamonAI和VNonDB两个来源的手写图像数据构建而成。数据集的构建过程包括从指定URL下载压缩文件，解压后读取标签信息，并将图像文件路径与对应的标签进行匹配。最终，两个来源的数据被合并为一个统一的数据框架，以便于后续的分析和处理。

使用方法

使用vietnamese_handwritten数据集时，首先需要通过Python脚本从HuggingFace平台下载并解压数据文件。随后，通过读取labels.json文件获取图像标签信息，并将图像文件路径与标签进行匹配。用户可以通过随机抽样展示图像及其标签，以验证数据的正确性。最后，将两个来源的数据合并为一个统一的数据框架，便于进行模型训练和评估。

背景与挑战

背景概述

vietnamese_handwritten数据集是一个专注于越南语手写字符识别的数据集，由CinamonAI和VNonDB两个子数据集组成。该数据集的创建旨在解决越南语手写字符识别领域的核心问题，特别是在多语言环境下，手写字符的多样性和复杂性对识别算法提出了更高的要求。该数据集的构建时间为近年，主要研究人员和机构包括CinamonAI和VNonDB团队。该数据集的出现为越南语手写字符识别领域提供了重要的数据支持，推动了相关算法的研究和应用。

当前挑战

vietnamese_handwritten数据集面临的挑战主要包括两个方面。首先，越南语手写字符的多样性和复杂性使得识别算法的设计变得尤为困难，特别是在字符形状、笔画顺序和连笔等方面。其次，在数据集的构建过程中，如何确保数据的多样性和代表性是一个重要挑战，特别是在收集和标注手写样本时，需要克服样本来源的局限性和标注一致性问题。此外，数据集的整合和标准化处理也是构建过程中的一大挑战，特别是在不同来源数据的格式和标注方式存在差异的情况下。

常用场景

经典使用场景

在越南手写文字识别领域，vietnamese_handwritten数据集被广泛应用于训练和评估深度学习模型。该数据集包含了大量的越南手写文字图像及其对应的标签，为研究人员提供了一个标准化的基准测试平台。通过该数据集，研究者能够有效地验证和比较不同模型在手写文字识别任务中的性能表现。

解决学术问题

vietnamese_handwritten数据集解决了越南手写文字识别领域中的关键问题，如手写文字的多样性和复杂性。该数据集通过提供大量标注数据，帮助研究者克服了数据稀缺的挑战，推动了越南手写文字识别技术的发展。此外，该数据集还为跨语言手写文字识别研究提供了宝贵的资源。

实际应用

在实际应用中，vietnamese_handwritten数据集被广泛用于开发越南手写文字识别系统，如自动化文档处理、手写笔记数字化和智能表单填写等。这些系统在越南的教育、金融和政府机构中得到了广泛应用，极大地提高了工作效率和数据处理准确性。

数据集最近研究