five

uta-net-songs

收藏
Hugging Face2024-08-24 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/KaraKaraWitch/uta-net-songs
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从Uta-Net网站抓取并处理的歌曲信息,主要涵盖日本官方发布的歌曲(如动画OP/ED),截至2023年3月。数据集由KaraKaraWitch创建和共享,语言为日语。数据集不包含动漫角色歌曲和同人/独立作品。每个歌曲条目包含歌曲ID、标题、艺术家、作词者、作曲者、发布日期和歌词等信息。
创建时间:
2024-08-16
原始信息汇总

Uta-Net Songs 数据集概述

数据集描述

  • 数据来源:Uta-Net 网站,主要收录日本官方发布的歌曲(如动漫OP/ED),截至2023年3月。
  • 数据处理:原始数据经过处理,原始数据可在此下载。
  • 创建者:KaraKaraWitch
  • 语言:日语(JA)
  • 许可:未披露/不确定
  • 不包含内容
    • 动漫角色歌曲
    • 同人/独立作品

数据样本

以下是数据集的一个样本:

json { "id": "100173", "title": "OSAKA RAINY BLUE ~蛸焼き橋~", "artist": "すぎもとまさと", "lyricist": "喜多條忠", "composer": "杉本眞人", "release": "2008/09/24", "tieup": null, "lyrics": "OSAKA RAINY BLUE OSAKA RAINY BLUE

ウチ、3時間も待ってたんやで
道頓堀川 蛸焼き橋で
噴水見つめて 待ってたんやで
ウチの事 嫌いになったんかいな
そやったら それでええけど
そやったら しょうがないけど
哀しかったんやで 涙、出て来たんやで
Wo… Wo… Wo…

ウチ、ひとりでパチンコしたんやで
フィーバー2回も ジャラジャラ出たけど
涙の方が もっと出たんやで
ウチの事 飽きてしもたんかいな
そやったら それでええけど
そやったら しょうがないけど
淋しなったんやで お酒飲みに 行ったんやで
Wo… Wo… Wo…

OSAKA RAINY BLUE OSAKA RAINY BLUE

ウチ、もいっぺん待ってみたんやで
太左衛門橋、蛸焼き橋は
あんたによう似た 人ばっかしや
ウチの事 捨ててしまうんかいな
夢だけを 見せてくれたんか
夢やから さめてしまうんか
ウチ、アホやからね 雨まで降って 来たやんか
Wo… Wo… Wo…

OSAKA RAINY BLUE OSAKA RAINY BLUE", "text": "「曲名:OSAKA RAINY BLUE ~蛸焼き橋~、 歌手:すぎもとまさと、 作詞者:喜多條忠、 作曲者:杉本眞人、 発売:2008/09/24」


OSAKA RAINY BLUE OSAKA RAINY BLUE

ウチ、3時間も待ってたんやで
道頓堀川 蛸焼き橋で
噴水見つめて 待ってたんやで
ウチの事 嫌いになったんかいな
そやったら それでええけど
そやったら しょうがないけど
哀しかったんやで 涙、出て来たんやで
Wo… Wo… Wo…

ウチ、ひとりでパチンコしたんやで
フィーバー2回も ジャラジャラ出たけど
涙の方が もっと出たんやで
ウチの事 飽きてしもたんかいな
そやったら それでええけど
そやったら しょうがないけど
淋しなったんやで お酒飲みに 行ったんやで
Wo… Wo… Wo…

OSAKA RAINY BLUE OSAKA RAINY BLUE

ウチ、もいっぺん待ってみたんやで
太左衛門橋、蛸焼き橋は
あんたによう似た 人ばっかしや
ウチの事 捨ててしまうんかいな
夢だけを 見せてくれたんか
夢やから さめてしまうんか
ウチ、アホやからね 雨まで降って 来たやんか
Wo… Wo… Wo…

OSAKA RAINY BLUE OSAKA RAINY BLUE" }

text 字段是预处理过的数据,适合用于LLM训练。

引用信息

@misc{karawitchutanetsongs, title = {Uta-Net Songs}, author = {KaraKaraWitch}, year = {2024}, howpublished = {url{https://huggingface.co/datasets/KaraKaraWitch/uta-net-songs}}, }

搜集汇总
数据集介绍
main_image_url
构建方式
uta-net-songs数据集是通过对日本音乐网站Uta-Net的网页抓取构建而成,涵盖了截至2023年3月在日本正式发布的歌曲,尤其是动漫主题曲和片尾曲。数据集经过处理,剔除了角色歌曲和同人/独立作品,确保了数据的专业性和针对性。原始数据以压缩文件形式提供,便于进一步处理和分析。
特点
该数据集以其丰富的歌曲信息为特点,每首歌曲均包含标题、艺术家、作词者、作曲者、发行日期以及完整的歌词文本。歌词部分经过格式化处理,适合用于大规模语言模型的训练。数据集的语言为日语,专注于日本音乐文化,尤其是动漫音乐领域,具有较高的文化研究价值和自然语言处理应用潜力。
使用方法
uta-net-songs数据集可直接用于自然语言处理任务,如歌词生成、情感分析或文本分类。用户可通过Hugging Face平台下载数据集,并利用其预处理的文本数据进行模型训练。数据集的结构化格式(JSON)便于开发者快速集成到现有工作流中,同时提供了详细的元数据,支持多维度分析和应用场景扩展。
背景与挑战
背景概述
uta-net-songs数据集由KaraKaraWitch于2024年创建,主要收录了截至2023年3月在日本正式发布的歌曲,尤其是动漫主题曲和片尾曲。该数据集通过对Uta-Net网站的爬取和整理,提供了丰富的歌曲信息,包括歌词、作曲者、作词者、发行日期等。这一数据集为自然语言处理(NLP)领域的研究者提供了宝贵的资源,尤其是在日文歌词分析和生成任务中具有重要应用价值。通过该数据集,研究者可以深入探讨日文歌词的语言特征、情感表达以及文化背景,进一步推动日文NLP技术的发展。
当前挑战
uta-net-songs数据集在构建过程中面临多重挑战。首先,数据来源的多样性和复杂性使得数据的清洗和标准化成为一项艰巨任务,尤其是歌词中可能包含的非标准表达和方言。其次,由于数据集主要聚焦于动漫歌曲,其内容具有一定的局限性,难以全面反映日文歌词的多样性。此外,数据集中未包含角色歌曲和同人作品,这在一定程度上限制了其在更广泛音乐研究中的应用。最后,数据集的版权信息未明确披露,可能引发法律和伦理问题,影响其在学术研究中的广泛使用。
常用场景
经典使用场景
uta-net-songs数据集主要应用于日本流行音乐的研究与分析,特别是针对动漫主题曲和片尾曲的歌词内容。该数据集通过提供详细的歌曲信息,如歌词、作曲者、作词者等,为音乐学、语言学及文化研究提供了丰富的素材。研究者可以利用这些数据进行歌词的情感分析、主题分类以及音乐风格演变的研究。
解决学术问题
uta-net-songs数据集解决了在音乐和语言学研究中缺乏高质量、结构化歌词数据的问题。通过提供大量日本流行歌曲的歌词及其元数据,该数据集支持了歌词文本的自动处理与分析,促进了自然语言处理技术在音乐领域的应用。此外,该数据集还为跨文化研究提供了基础,帮助研究者理解日本流行音乐中的文化表达和情感传递。
衍生相关工作
基于uta-net-songs数据集,研究者们已经开展了多项经典工作。例如,一些研究利用该数据集开发了基于歌词的情感分析模型,能够自动识别歌曲中的情感倾向。此外,还有研究利用该数据集进行音乐风格分类,探索不同年代和地区的音乐风格演变。这些工作不仅推动了音乐信息检索技术的发展,还为跨学科研究提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作