faruk/bengali-names-vs-gender
收藏Hugging Face2022-10-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/faruk/bengali-names-vs-gender
下载链接
链接失效反馈官方服务:
资源简介:
Bengali Female VS Male Names Dataset是一个包含2030个孟加拉语名字样本的NLP数据集,每个样本都有对应的性别标签,用于性别识别等NLP任务。数据集以CSV格式存储,包含两列:Name和Gender。性别标签用0表示男性,1表示女性。数据集的样本分布为男性1029个,女性1001个。该数据集适用于序列分类、序列建模以及基于名字的性别识别等任务。
提供机构:
faruk
原始信息汇总
Bengali Female VS Male Names Dataset 概述
数据集描述
- 名称: Bengali Female VS Male Names Dataset
- 类型: 自然语言处理(NLP)数据集
- 样本数量: 2030个数据样本
- 内容: 包含孟加拉语的男性和女性名字及其对应性别
- 用途: 适用于NLP初学者练习序列分类问题和其他NLP问题,如基于名字的性别识别
数据集格式
- 文件格式: CSV
- 列信息:
- Name: 名字
- Gender: 性别,用0和1表示(0代表男性,1代表女性)
- 编码: 名字字段使用UTF-8编码
数据集统计
- 男性样本数量: 1029
- 女性样本数量: 1001
可能的应用场景
- 使用RNN、LSTM等进行序列分类
- 使用其他机器学习算法进行序列建模
- 基于名字的性别识别



