Corpus of Taylor Swift (CoTS)|歌词分析数据集|音乐研究数据集
收藏数据集概述:Corpus of Taylor Swift (CoTS)
数据集内容
CoTS 数据集包含了所有泰勒·斯威夫特(Taylor Swift)的录音室专辑中的歌词单词,以及其他由她创作的歌曲。每个独特的歌词单词都根据CoTS进行了多种分类和统计,以便理解每个单词如何在歌词、歌曲和/或专辑中使用。
数据集更新
CoTS 数据集使用“Taylors Version”专辑的歌词,包括所有额外曲目或“来自金库”的歌曲。计划在未来随着新材料的发布而更新此数据集。
单词分类
CoTS 为歌词单词分配了词频、词性(PoS)和单词变体,这些分类基于《书面和口语英语中的词频(WFWSE)》列表。此外,还使用了基于《欧洲共同框架参考语言(CEFR)》级别的牛津5000词列表进行分类。
单词变体处理
为了确保歌词单词分类尽可能完整,CoTS 添加了以下变体:
- 美国单词拼写
- 常见缩写词
- 简单缩略词
- 所有格名词
- 数字的数字形式
此外,某些单词已被替换为WFWSE的等效词。
数据集结构
CoTS 数据集分为四个部分,分别代表歌词单词、歌曲、专辑和歌词的详细信息和统计数据。
单词细节
这部分列出了每个歌词单词及其相关的分类、统计和标签列。包括单词、词性、词频带、牛津英语语料库排名、CEFR级别等。
歌曲细节
这部分提供了数据集中包含的每首歌曲的摘要详细信息和统计数据,包括专辑代码、曲目号、标题、特色艺术家等。
专辑细节
这部分提供了数据集中包含的每个专辑的摘要详细信息和统计数据,包括代码、标题、副标题、年份、最低频率单词等。
歌词
这部分提供了数据集中包含的每首歌曲的所有歌词行的扁平集合。
补充文件
除了主要的CoTS文件外,还提供了以下文件:
- 歌词/专辑-歌曲-歌词.json
- 歌词/扁平-歌曲-歌词.json
- tsv/cots-单词-详细信息.tsv
- tsv/cots-歌曲-详细信息.tsv
- tsv/cots-专辑-详细信息.tsv

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
DroneVehicle 大规模无人机航拍车辆检测数据集
这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。
超神经 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
中国近海台风路径集合数据集(1945-2023)
1945-2023年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。注:时间为北京时间。
国家海洋科学数据中心 收录
CMACD
这是一个基于社交媒体用户的多标签中文情感计算数据集,整合了用户的性格特质与六种情感及微情感,每种情感都标注了强度级别。数据集旨在推进机器对复杂人类情感的识别,并为心理学、教育、市场营销、金融和政治等领域的研究提供数据支持。
github 收录