SMILE Twitter Emotion dataset|情感分析数据集|社交媒体数据集
收藏数据集概述
数据集名称: SMILE Twitter Emotion dataset
创建者: Wang, Bo; Tsakalidis, Adam; Liakata, Maria; Zubiaga, Arkaitz; Procter, Rob; Jensen, Eric
创建年份: 2016
内容描述: 该数据集包含多种情绪标注的推文,如幸福、愤怒、悲伤等,为情感分析任务提供丰富资源。
数据集下载链接: SMILE Twitter Emotion dataset page
数据集处理
预处理工具: python preprocess.py
预处理输出: 生成 dataset_train.pt, dataset_val.pt 和 data_info.json 文件,用于BERT模型的训练和验证。
模型训练
使用模型: bert-base-uncased 模型,来自 transformers 库
训练脚本: python train.py
模型评估
评估脚本: python evaluate.py
模型应用
示例代码: python tweet = "I hate this movie" label = predict_label(tweet) print(f"Predicted label: {label}")
引用信息
引用格式:
@misc{wang2016smile, author = {Wang, Bo and Tsakalidis, Adam and Liakata, Maria and Zubiaga, Arkaitz and Procter, Rob and Jensen, Eric}, title = {SMILE Twitter Emotion dataset}, year = {2016}, publisher = {figshare}, doi = {10.6084/m9.figshare.3187909.v2} }

CHiME-5
CHiME-5是关于自动语音识别处理技术的数据集。该数据集来自第5个CHiME挑战,包括在真实家庭环境中进行远程多麦克风会话的任务。从晚餐场景中提取语音素材,数据集获得自然对话语音数据,并由6个Kinect麦克风阵列和4个双耳麦克风对记录。 数据集包含单阵列轨道与多阵列轨道语言建模,以及用于阵列同步,语音增强,常规和端到端ASR的数据收集过程,任务和基线系统。
OpenDataLab 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
Crop Yield Prediction Dataset
Impact of Environmental Factors on Crop Yields Across Countries
kaggle 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
