tamil-song-corpus
收藏github2020-10-04 更新2024-05-31 收录
下载链接:
https://github.com/sabesansathananthan/tamil-song-corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含4216首从Tamilpaa网站抓取的歌曲数据,包括歌曲的详细元数据,如电影名称、年份、音乐、演员等,并提供了数据的JSON结构描述。
This dataset comprises 4,216 songs scraped from the Tamilpaa website, encompassing detailed metadata such as movie titles, release years, music credits, cast information, and more. Additionally, it provides a JSON structure description of the data.
创建时间:
2020-07-01
原始信息汇总
数据集概述
数据集名称
- tamil-song-corpus
数据集内容
- 包含4216首从Tamilpaa网站爬取的歌曲数据。
- 数据存储在
tamilpaa_data.txt文件中。 - 随机选取的1500首歌曲数据被完全翻译成泰米尔语,并增加了额外的元数据,如"song_lyrics", "song_music", "song_singers",以提高搜索质量,存储在
tamil_songs_corpus.txt文件中。 - 使用
Web_scraping_tamilpaa.ipynb进行数据爬取。 - 使用
pre_processing.ipynb生成JSON数据。 - 1500首歌曲的Bulk API格式存储在
tamil_songs_corpus_final.txt文件中。
数据集结构
原始歌曲数据的JSON结构
JSON { "movie_name": "电影名称", "year": "年份", "music": "音乐", "actors": "演员", "movie_url": "电影URL", "movie_image": "电影图片URL", "movie_name_tamil": "泰米尔语电影名称", "movie_name_eng": "英文电影名称", "movie_song": [ { "song_name": "歌曲名称", "song_url": "歌曲URL", "song_music": "歌曲音乐", "song_lyrics": "歌曲歌词", "song_singers": "歌曲歌手", "song_fulllyrics": "完整歌词" } ] }
处理后的歌曲数据的JSON结构
JSON { "index": { "_index": "songs_db_index", "_type": "songs", "_id": 1 }, "movie_name": "电影名称", "song_name": "歌曲名称", "song_music": "歌曲音乐", "song_lyrics": "歌曲歌词", "song_singers": "歌曲歌手", "year": "年份", "actors": "演员", "song_rating": "歌曲评分", "song_url": "歌曲URL", "song_fulllyrics": "完整歌词" }
数据集属性
- movie_name: 电影名称
- song_name: 泰米尔语歌曲名称
- song_music: 歌曲音乐导演
- song_lyrics: 歌曲歌词作者
- song_singers: 歌曲歌手,逗号分隔
- year: 电影发布年份
- actors: 演员名称,逗号分隔
- song_rating: 歌曲评分(随机值)
- song_url: 歌曲在TamilPaa网站的URL
- song_fulllyrics: 泰米尔语完整歌词
搜集汇总
数据集介绍

构建方式
Tamil Song Corpus 数据集的构建基于从 Tamilpaa 网站抓取的泰米尔语歌曲数据。通过使用 Python 脚本 `Web_scraping_tamilpaa.ipynb`,从该网站提取了 4216 首歌曲的元数据,并存储为 JSON 格式。随后,从中随机选取 1500 首歌曲,进一步添加了歌词、作曲者、演唱者等额外元数据,并通过 `pre_processing.ipynb` 脚本进行预处理,生成了最终的泰米尔语歌曲语料库。
特点
该数据集的特点在于其丰富的元数据信息,涵盖了电影名称、歌曲名称、作曲者、作词者、演唱者、发行年份、演员列表、歌曲评分以及完整歌词等。此外,数据集还提供了泰米尔语歌词的完整翻译,便于进行语言分析和搜索。数据集的结构化 JSON 格式使得其易于集成到搜索引擎或其他分析工具中,特别适合用于泰米尔语歌曲的文本挖掘和自然语言处理任务。
使用方法
该数据集的使用方法主要围绕 Elasticsearch 搜索引擎展开。用户首先需要在本地或服务器上安装 Elasticsearch,并通过提供的 `iR.py` 脚本将数据集批量导入。随后,用户可以使用 Elasticsearch 的查询 DSL 进行复杂的搜索操作,如按年份、作曲者、演唱者等条件筛选歌曲,或通过模糊匹配查找特定歌词。数据集还支持自定义分析器,允许用户根据泰米尔语的语言特性进行停用词过滤和词干提取,从而提升搜索的准确性和效率。
背景与挑战
背景概述
Tamil Song Corpus 数据集由 Sabesan Sathananthan 创建,旨在为泰米尔语歌曲提供一个结构化的数据资源。该数据集包含了从 Tamilpaa 网站上抓取的 4216 首歌曲的元数据,涵盖了电影名称、歌曲名称、音乐导演、歌词作者、歌手、年份、演员等详细信息。数据集的核心研究问题在于如何通过结构化的数据支持泰米尔语歌曲的搜索、分析和推荐系统。该数据集为泰米尔语音乐研究、自然语言处理以及信息检索领域提供了重要的数据支持,尤其是在多语言处理和跨文化音乐分析方面具有显著的影响力。
当前挑战
Tamil Song Corpus 数据集在构建过程中面临了多方面的挑战。首先,泰米尔语作为一种复杂的语言,其歌词的翻译和标注需要高度的语言学和领域知识,尤其是在处理歌词中的隐喻和文化背景时。其次,数据集的构建依赖于网络爬虫技术,如何高效且合法地从 Tamilpaa 网站上抓取数据,并确保数据的完整性和准确性,是一个技术上的难题。此外,数据集中包含的元数据(如歌曲评分)是随机生成的,这可能导致在推荐系统或分析任务中引入偏差。最后,如何将数据集与 Elasticsearch 等搜索引擎集成,以支持复杂的查询和分析,也是一个需要解决的技术挑战。
常用场景
经典使用场景
Tamil-song-corpus数据集在泰米尔语音乐研究领域具有广泛的应用,尤其在音乐信息检索(MIR)和自然语言处理(NLP)任务中表现出色。研究者可以通过该数据集进行歌曲分类、情感分析、歌词生成等任务。其丰富的元数据(如歌曲名称、歌词、演唱者、作曲者等)为音乐推荐系统和个性化播放列表的构建提供了坚实的基础。
实际应用
在实际应用中,Tamil-song-corpus数据集被广泛用于音乐推荐系统、歌词搜索引擎以及音乐版权管理平台。例如,音乐流媒体平台可以利用该数据集为用户提供个性化的泰米尔语歌曲推荐,而歌词搜索引擎则可以通过歌词匹配功能帮助用户快速找到所需的歌曲。此外,该数据集还为音乐版权管理提供了数据支持,帮助识别和保护泰米尔语音乐作品的版权。
衍生相关工作
基于Tamil-song-corpus数据集,许多经典研究工作得以展开。例如,研究者利用该数据集开发了基于深度学习的泰米尔语歌词生成模型,以及基于情感分析的泰米尔语歌曲分类系统。此外,该数据集还催生了一系列关于泰米尔语音乐风格演变的研究,为泰米尔语音乐文化的传承与发展提供了理论支持。这些衍生工作不仅丰富了泰米尔语音乐研究的学术成果,也为相关技术的实际应用奠定了基础。
以上内容由遇见数据集搜集并总结生成



