Global Popular Names Dataset|名字研究数据集|文化分析数据集
收藏Global Popular Names Dataset 概述
数据集描述
- 名称: Global Popular Names Dataset
- 包含内容: 45,769个独特的名字,分为55个起源。
- 数据集结构:
name
: 名字本身。gender
: 性别标识,包括7种不同的值:M
: 男性名字1M
: 若名字的首部分,则为男性名字;否则,表示主要与男性相关的名字。?M
: 主要为男性名字,实质上是中性名字,但更倾向于与男性相关。F
: 女性名字1F
: 若名字的首部分,则为女性名字;否则,表示主要与女性相关的名字。?F
: 主要为女性名字,实质上是中性名字,但更倾向于与女性相关。?
: 中性名字,不明显偏向于任何性别。
origin
: 名字的起源。
数据集来源
- 原始数据: 来源于Jörg MICHAEL在2007-2008年编制的“List of first names and gender”。
- 原始数据格式: 文本格式(
.txt
)。 - 当前数据格式: CSV格式(
.csv
)和JSON格式(.json
)。
数据集文件
- 原始数据文件:
original_data.txt
- 转换后的数据文件:
global_popular_names.csv
global_popular_names.json
global_popular_names_min.csv
(起源列值缩短)global_popular_names_min.json
(起源列值缩短)
数据转换
- 转换工具: 使用TypeScript编写的脚本,需要Node.js环境。
- 转换步骤:
- 克隆仓库。
- 安装依赖。
- 运行转换脚本,可选择输入文件路径、输出文件路径、是否缩短起源列值等参数。
联系方式
- 联系邮箱: ertusari@icloud.com

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
BC-MRI-SEG
BC-MRI-SEG是一个专注于乳腺癌MRI肿瘤分割的基准数据集,由中佛罗里达大学计算机视觉研究中心创建。该数据集整合了四个公开的MRI数据集,包括RIDER、ISPY1、BreastDM和DUKE,总计包含1320名患者的数据。这些数据集在MRI扫描仪的使用、配置及数据处理方法上各有不同,提供了多样化的数据来源。数据集的创建旨在解决医学影像领域中标记数据缺乏的问题,并推动开发适用于临床环境的稳健且适应性强的模型。BC-MRI-SEG的应用领域主要集中在乳腺癌的诊断和治疗评估,通过深度学习方法提高肿瘤分割的准确性和效率。
arXiv 收录
CBIS-DDSM
该数据集用于训练乳腺癌分类器或分割模型,包含3103张乳腺X光片,其中465张有多个异常。数据集分为训练集和测试集,还包括3568张裁剪的乳腺X光片和对应的掩码。
github 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录