MultiEmoji|社交媒体分析数据集|emoji研究数据集
收藏数据集概述
数据集名称
- 名称: MultiEmoji
数据集描述
- 描述: 一个大规模的emoji插入语料库,包含420,000条英语帖子,每条帖子至少包含一个emoji。
数据集组成部分
- 主要文件:
- MultiEmoji_corpus.csv.zip: 包含所有420,000个样本的构建语料库。
- 训练集:
- corpus_train.txt
- 验证集:
- corpus_dev.txt
- 测试集:
- corpus_test.txt

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
DeepPCB
DeepPCB是由上海交通大学图像处理与模式识别研究所创建的首个公开PCB缺陷检测数据集,包含1,500对标注了6种常见PCB缺陷位置的图像。数据集通过模板匹配技术确保图像对齐,减少预处理工作量。每对图像包括一个640x640像素的无缺陷模板和一个有缺陷的测试图像。数据集旨在解决PCB制造中的自动缺陷检测问题,提高检测效率和准确性。
arXiv 收录