Corpus of Taylor Swift (CoTS)|歌词分析数据集|音乐研究数据集

github2024-05-18 更新2024-05-31 收录

歌词分析

音乐研究

下载链接：

https://github.com/sagesolar/Corpus-of-Taylor-Swift

下载链接

链接失效反馈

资源简介：

这是一个包含Taylor Swift所有录音室专辑歌曲歌词的数据集，以及她所写的其他歌曲的选集。每个独特的歌词词都被CoTS赋予了多种分类和统计数据，可以用来理解每个词在歌词、歌曲和/或专辑中的使用方式和位置。

This dataset encompasses the lyrics from all of Taylor Swift's studio albums, along with a selection of other songs she has written. Each unique lyric has been annotated by CoTS with multiple classifications and statistical data, which can be utilized to analyze the usage and placement of each word within the lyrics, songs, and/or albums.

创建时间：

2024-03-06

原始信息汇总

数据集概述：Corpus of Taylor Swift (CoTS)

数据集内容

CoTS 数据集包含了所有泰勒·斯威夫特（Taylor Swift）的录音室专辑中的歌词单词，以及其他由她创作的歌曲。每个独特的歌词单词都根据CoTS进行了多种分类和统计，以便理解每个单词如何在歌词、歌曲和/或专辑中使用。

数据集更新

CoTS 数据集使用“Taylors Version”专辑的歌词，包括所有额外曲目或“来自金库”的歌曲。计划在未来随着新材料的发布而更新此数据集。

单词分类

CoTS 为歌词单词分配了词频、词性（PoS）和单词变体，这些分类基于《书面和口语英语中的词频（WFWSE）》列表。此外，还使用了基于《欧洲共同框架参考语言（CEFR）》级别的牛津5000词列表进行分类。

单词变体处理

为了确保歌词单词分类尽可能完整，CoTS 添加了以下变体：

美国单词拼写
常见缩写词
简单缩略词
所有格名词
数字的数字形式

此外，某些单词已被替换为WFWSE的等效词。

数据集结构

CoTS 数据集分为四个部分，分别代表歌词单词、歌曲、专辑和歌词的详细信息和统计数据。

单词细节

这部分列出了每个歌词单词及其相关的分类、统计和标签列。包括单词、词性、词频带、牛津英语语料库排名、CEFR级别等。

歌曲细节

这部分提供了数据集中包含的每首歌曲的摘要详细信息和统计数据，包括专辑代码、曲目号、标题、特色艺术家等。

专辑细节

这部分提供了数据集中包含的每个专辑的摘要详细信息和统计数据，包括代码、标题、副标题、年份、最低频率单词等。

歌词

这部分提供了数据集中包含的每首歌曲的所有歌词行的扁平集合。

补充文件

除了主要的CoTS文件外，还提供了以下文件：

歌词/专辑-歌曲-歌词.json
歌词/扁平-歌曲-歌词.json
tsv/cots-单词-详细信息.tsv
tsv/cots-歌曲-详细信息.tsv
tsv/cots-专辑-详细信息.tsv

AI搜集汇总

数据集介绍

构建方式

Corpus of Taylor Swift (CoTS) 数据集通过收集泰勒·斯威夫特所有录音室专辑中的歌词，并结合部分她创作的其他歌曲，构建而成。该数据集优先使用 'Taylor's Version' 版本的歌词，并涵盖所有特别曲目或 'from the vault' 歌曲。每个独特的歌词词汇都被赋予了多种分类和统计信息，以分析其在歌词、歌曲或专辑中的使用情况。数据集的构建过程中，还特别处理了词汇的变体，如美式拼写、常见缩写、简单缩写、所有格名词和数字形式，并确保了词汇分类的完整性。

使用方法

CoTS 数据集的使用方法多样，适用于语言学、歌词分析和数据挖掘等多个领域。用户可以通过访问提供的 JSON 和 TSV 文件，获取歌词、歌曲、专辑和词汇的详细信息。数据集中的词汇部分提供了词频、词性、词汇变体、词汇重要性分级等信息，用户可以利用这些数据进行词汇频率分析、词性标注、词汇重要性评估等研究。此外，数据集还提供了歌词在不同歌曲结构部分的出现频率，用户可以分析歌词在歌曲中的分布和使用模式。通过这些数据，研究者可以深入探讨泰勒·斯威夫特歌词的语言特征和创作风格。

背景与挑战

背景概述

Corpus of Taylor Swift (CoTS) 数据集是由Taylor Swift的所有录音室专辑中的歌词词汇构成的，旨在通过对每个独特歌词词汇的分类和统计，深入分析这些词汇在歌曲、专辑中的使用情况。该数据集的构建基于‘Taylor’s Version’专辑的歌词，并包含了所有特别曲目或‘from the vault’歌曲。CoTS的创建不仅为研究Taylor Swift的歌词风格和语言使用提供了丰富的素材，还为语言学、文化研究等领域提供了宝贵的数据支持。随着新材料的发布，该数据集将持续更新，以保持其时效性和完整性。

当前挑战

CoTS数据集在构建过程中面临多项挑战。首先，歌词词汇的分类和统计需要精确处理，尤其是对同形异义词和不同词性的处理，确保每个词汇的分类准确无误。其次，数据集的更新需要及时跟进Taylor Swift的新作品，确保数据的完整性和时效性。此外，如何处理重复歌词、不同版本的歌曲以及歌词中的特殊符号和标点，也是构建过程中需要解决的技术难题。最后，数据集的规模和复杂性要求高效的存储和检索机制，以支持大规模的数据分析和研究。

常用场景

经典使用场景

CoTS数据集的经典使用场景主要集中在对泰勒·斯威夫特歌词的语言学分析上。研究者可以利用该数据集进行词频分析、词性标注、词汇变体研究以及歌词中的语言模式识别。通过分析歌词中的词汇分布和使用频率，研究者能够深入探讨斯威夫特作品中的语言风格和情感表达，尤其是在不同专辑和歌曲中的变化。

解决学术问题

CoTS数据集解决了语言学研究中关于流行音乐歌词的词汇使用和语言模式分析的常见问题。通过提供详细的词汇分类、词频统计和词性标注，该数据集为研究者提供了一个系统的工具，用于探讨流行音乐中的语言特征、词汇多样性以及歌词创作中的语言策略。这对于语言学、文化研究和音乐分析等领域具有重要意义。

实际应用

CoTS数据集在实际应用中具有广泛的应用场景。首先，它可以用于语言教学，帮助学习者通过分析流行音乐歌词来提高英语词汇和语法的学习效果。其次，该数据集可以用于音乐创作和歌词写作的辅助工具，帮助创作者理解词汇选择和语言结构对歌曲情感表达的影响。此外，CoTS还可以用于文化研究，分析流行音乐中的社会文化现象和语言变迁。

数据集最近研究

最新研究方向

近年来，Taylor Swift的歌词数据集（CoTS）在语言学和音乐分析领域引起了广泛关注。该数据集不仅提供了Taylor Swift所有专辑歌词的详细分类和统计信息，还通过引入词频、词性、词汇变体等高级语言学特征，为研究者提供了丰富的分析维度。特别是在情感分析、语言风格演变以及歌词创作模式的研究中，CoTS展现了其独特的价值。此外，随着Taylor Swift不断发布新作品，该数据集的持续更新也为研究者提供了追踪其创作风格变化的动态窗口。CoTS的应用不仅限于学术研究，还为音乐产业中的歌词创作、市场分析等领域提供了新的工具和视角。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

DroneVehicle 大规模无人机航拍车辆检测数据集

这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布，相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。

超神经收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

中国近海台风路径集合数据集(1945-2023)

1945-2023年度，中国近海台风路径数据集，包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。注：时间为北京时间。

国家海洋科学数据中心收录

CMACD

这是一个基于社交媒体用户的多标签中文情感计算数据集，整合了用户的性格特质与六种情感及微情感，每种情感都标注了强度级别。数据集旨在推进机器对复杂人类情感的识别，并为心理学、教育、市场营销、金融和政治等领域的研究提供数据支持。

github 收录