five

Chinese_lyric_dataset|中文歌词数据集|中国风音乐数据集

收藏
github2022-09-25 更新2024-05-31 收录
中文歌词
中国风音乐
下载链接:
https://github.com/JiangYanting/Chinese_lyric_dataset
下载链接
链接失效反馈
资源简介:
这是一个包含5500多首中文流行歌曲(包括100余首“中国风”类别的歌曲歌词,已经单独标记)歌词的数据集。每一首歌歌词均为一个txt文件,utf-8编码。5500多首歌曲,歌词总计235.3万余字。其中“中国风”类别的歌曲歌词2.7万余字。

This dataset comprises over 5,500 Chinese pop songs, including more than 100 songs categorized under 'Chinese Style' (中国风), which have been separately labeled. Each song's lyrics are stored in a UTF-8 encoded txt file. The total word count for all lyrics exceeds 2.353 million, with the 'Chinese Style' category contributing over 27,000 words.
创建时间:
2020-11-11
原始信息汇总

Chinese_lyric_dataset 概述

数据集简介

  • 类型: 中文歌曲歌词数据集
  • 用途: 数据挖掘、文本分类、歌词语料库
  • 规模: 包含5500多首中文流行歌曲歌词,总计235.3万余字。其中,“中国风”类别的歌曲歌词2.7万余字。
  • 文件格式: 每首歌歌词为一个txt文件,采用utf-8编码。

内容概览

  • 数据集提供了三张图片,分别展示了一般歌词概览、另一张歌词概览以及“中国风”歌词概览。

下载方式

  • 通过邮件联系jiangyanting@mail.bnu.edu.cn,或添加qq号540980735,或微信号jyt629000获取数据集。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于对中文流行歌曲歌词的系统收集与整理,涵盖了5500余首歌曲的歌词文本,其中包括100余首具有代表性的“中国风”类别歌曲。每首歌曲的歌词均以独立的txt文件形式存储,采用utf-8编码格式,确保了数据的兼容性与可读性。歌词内容总计超过235.3万字,其中“中国风”类别的歌词占2.7万余字,为研究中文歌词的语言特征提供了丰富的语料支持。
特点
该数据集的特点在于其广泛的覆盖范围与精细的分类标注。5500余首中文流行歌曲的歌词涵盖了多样化的音乐风格与主题,尤其是“中国风”类别的歌词被单独标记,便于研究者进行针对性的分析与挖掘。歌词文本以utf-8编码存储,确保了数据的标准化与可扩展性。此外,数据集的总字数超过235万,为自然语言处理、文本分类及文化研究等领域提供了高质量的语料资源。
使用方法
该数据集的使用方法较为灵活,适用于多种研究场景。研究者可通过下载歌词文本文件,利用自然语言处理技术进行词频统计、情感分析或主题建模等任务。对于“中国风”类别的歌词,可进一步探索其独特的语言风格与文化内涵。数据集以txt文件形式存储,便于直接读取与处理。下载方式可通过邮件、QQ或微信联系数据集作者获取,确保了数据的安全性与可控性。
背景与挑战
背景概述
Chinese_lyric_dataset是一个专注于中文流行歌曲歌词的数据集,由蒋彦廷和张健铖等研究人员于2018年创建。该数据集收录了超过5500首中文流行歌曲的歌词,其中包括100余首具有“中国风”特色的歌曲,歌词总计235.3万余字。该数据集的创建旨在为中文歌词的文本挖掘、分类及风格分析提供丰富的语料资源,尤其对“中国风”歌曲的词汇研究具有重要参考价值。该数据集的研究成果已发表在《成都理工大学学报(社会科学版)》上,为中文歌词的统计分析及文化研究提供了重要的数据支持。
当前挑战
Chinese_lyric_dataset在构建和应用过程中面临多重挑战。首先,中文歌词的多样性和复杂性使得文本分类和风格分析变得尤为困难,尤其是“中国风”歌曲的词汇和表达方式具有独特的文化内涵,难以通过简单的统计方法进行准确分类。其次,数据集的构建过程中,歌词的收集、清洗和标注需要大量的人工干预,以确保数据的准确性和一致性。此外,由于歌词的版权问题,数据集的公开获取受到一定限制,这为研究者的数据获取和使用带来了不便。这些挑战不仅影响了数据集的广泛应用,也对中文歌词的深度分析和研究提出了更高的技术要求。
常用场景
经典使用场景
在自然语言处理领域,Chinese_lyric_dataset数据集常被用于文本分类和情感分析的研究。研究者利用该数据集中的歌词文本,训练机器学习模型以识别和分类不同风格或情感色彩的歌词,如“中国风”类别的歌曲。这种应用不仅展示了数据集在文化研究中的价值,也推动了文本分析技术的发展。
解决学术问题
该数据集解决了中文歌词文本分析中的几个关键问题,包括歌词风格的自动分类和情感倾向的识别。通过对大量歌词的统计分析,研究者能够更深入地理解中文歌词的语言特点和情感表达方式,这对于提升文本挖掘和自然语言处理技术的准确性具有重要意义。
衍生相关工作
基于Chinese_lyric_dataset数据集,已经衍生出多项经典研究工作。例如,有研究利用该数据集进行“中国风”歌曲的词汇统计分析,揭示了该类歌曲在词汇使用上的独特风格。此外,还有研究利用该数据集开发了基于深度学习的歌词生成模型,这些模型能够生成风格多样且情感丰富的歌词文本。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录