skolpin/surname_classification
收藏Hugging Face2024-05-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/skolpin/surname_classification
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于姓氏分类的数据集,来源于PyTorch教程中的一个项目,该项目使用字符级RNN进行姓氏分类。当前数据集是原始数据的过滤版本,仅包含五种语言(俄语、英语、日语、意大利语、德语)的姓氏,删除了重复的姓氏,并进行了UNICODE到ASCII的标准化处理,最终保存为一个CSV文件。
该数据集是一个用于姓氏分类的数据集,来源于PyTorch教程中的一个项目,该项目使用字符级RNN进行姓氏分类。当前数据集是原始数据的过滤版本,仅包含五种语言(俄语、英语、日语、意大利语、德语)的姓氏,删除了重复的姓氏,并进行了UNICODE到ASCII的标准化处理,最终保存为一个CSV文件。
提供机构:
skolpin
原始信息汇总
Surname classification dataset 概述
数据集来源
数据集下载
- 原始数据可从 此处 下载。
数据集预处理
- 当前数据集是原始数据的过滤版本,进行了以下预处理步骤:
- 仅使用5种语言(俄语、英语、日语、意大利语、德语)。
- 删除重复的姓氏。
- 将UNICODE转换为ASCII。
- 文件保存为单个csv格式。
数据集准备
- 下载原始数据并准备当前数据集的过程记录在
surname_classification_prepare.ipynb笔记本中。



