tamil_songs_corpus

github2020-07-02 更新2024-05-31 收录

下载链接：

https://github.com/sajeevan16/tamil-songs-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含近4217首泰米尔歌曲，来自1004部电影。数据集文件tamil_songs_corpus.csv包含电影的JSON对象，而tamil_songs_corpus_preprocessed_data.csv包含预处理后的歌曲集合。每个电影JSON对象包含电影名称、年份、音乐、演员、电影URL、电影图片、泰米尔电影名称、英文电影名称以及电影歌曲对象列表，每个歌曲对象包含歌曲标题、URL、音乐、歌词、歌手和完整歌词。

This dataset comprises approximately 4,217 Tamil songs from 1,004 movies. The dataset file 'tamil_songs_corpus.csv' contains JSON objects of the movies, while 'tamil_songs_corpus_preprocessed_data.csv' includes a collection of preprocessed songs. Each movie JSON object contains the movie title, year, music, actors, movie URL, movie image, Tamil movie title, English movie title, and a list of song objects. Each song object includes the song title, URL, music, lyrics, singers, and full lyrics.

创建时间：

2020-06-28

原始信息汇总

数据集概述

数据集名称

Tamil Songs Corpus

数据集内容

包含近4217首泰米尔歌曲，来自1004部电影。
数据集包含两个主要文件：
- tamil_songs_corpus.csv：包含电影JSON对象的原始数据。
- tamil_songs_corpus_preprocessed_data.csv：包含预处理后的歌曲集合的扁平数据。

数据结构

电影JSON对象：
- movie：电影名称（泰米尔语和英语）
- year：电影年份
- music：音乐
- actors：演员列表（逗号分隔）
- movie_url：电影URL
- movie_image：电影图片URL
- movie_name_tamil：电影泰米尔语名称
- movie_name_eng：电影英语名称
- movie_song：包含多个歌曲对象，每个对象包括：
  - song_title：歌曲标题（泰米尔语和英语）
  - song_url：歌曲URL
  - song_music：歌曲音乐
  - song_lyrics：歌曲歌词
  - song_singers：歌曲演唱者
  - song_fulllyrics：完整泰米尔语歌词

附加资源

tamilpaa_Web_scraping.ipynb：网络爬虫脚本笔记本。

数据处理工具

Stopwords_ta：用于索引内容时排除常用词。
Synonyms：通过SynonymFilterFactory和synonyms.txt配置文件，提供同义词功能，增强用户体验。

查询示例

使用SOLR REST API GUI进行查询，包括全文搜索、字段搜索、范围搜索、排序和过滤等。

数据集使用

数据集适用于泰米尔歌曲的研究和分析，支持多种查询和数据检索需求。

搜集汇总

数据集介绍

构建方式

Tamil Songs Corpus 数据集通过从 tamilpaa.com 网站抓取泰米尔语歌曲信息构建而成。数据集包含来自1004部电影的4217首歌曲，涵盖了电影的详细信息，如电影名称、年份、音乐、演员、电影URL、电影图片等。每首歌曲的信息包括歌曲标题、URL、音乐、歌词、歌手及完整的泰米尔语歌词。数据以JSON格式存储，并通过预处理生成CSV文件，便于进一步分析。

特点

该数据集的特点在于其丰富的元数据信息，涵盖了电影和歌曲的多维度属性。每首歌曲不仅包含基本的音乐和歌词信息，还提供了详细的歌手和电影背景信息。此外，数据集还提供了预处理后的CSV文件，便于用户直接使用。数据集还附带了泰米尔语停用词表和同义词表，支持更精确的文本搜索和分析。

使用方法

用户可以通过SOLR环境配置该数据集，并使用SOLR REST API进行查询。数据集支持多种查询方式，包括关键词搜索、模糊匹配、时间范围搜索和权重提升等。用户可以根据歌曲的歌词、演员、音乐等字段进行精确或模糊查询，并通过停用词和同义词表优化搜索结果。此外，数据集还支持通配符匹配和邻近匹配，帮助用户在不完全记忆歌词或名称的情况下找到相关歌曲。

背景与挑战

背景概述

Tamil Songs Corpus 是一个专注于泰米尔语歌曲的数据集，由来自1004部电影的4217首歌曲组成。该数据集由tamilpaa.com网站收集并整理，旨在为泰米尔语音乐研究提供丰富的资源。数据集的核心内容包括电影的元数据（如电影名称、年份、音乐、演员等）以及每首歌曲的详细信息（如歌曲标题、歌词、歌手等）。该数据集的创建时间为近年来，主要研究人员或机构未明确提及，但其对泰米尔语音乐分析、自然语言处理以及文化研究领域具有重要影响。通过提供结构化的泰米尔语歌词数据，该数据集为语言模型训练、情感分析以及跨文化研究提供了宝贵的基础。

当前挑战

Tamil Songs Corpus 在构建和应用过程中面临多重挑战。首先，泰米尔语作为一种复杂的语言，其歌词中包含了大量的同义词、多义词以及文化特定的表达方式，这对自然语言处理任务提出了较高的要求。其次，数据集的构建依赖于网络爬虫技术，数据的完整性和准确性受到源网站结构变化的影响。此外，泰米尔语歌词中常见的停用词和功能性词汇在搜索和分析中可能干扰结果，需要额外的预处理步骤来优化数据质量。最后，如何有效地利用该数据集进行跨领域研究（如音乐推荐系统或文化分析）仍是一个开放性问题，需要进一步探索和优化算法。

常用场景

经典使用场景

Tamil Songs Corpus数据集在音乐信息检索和自然语言处理领域具有广泛的应用。研究者可以利用该数据集进行泰米尔语歌曲的歌词分析、情感分析以及音乐风格的分类。通过分析歌曲的歌词和元数据，研究者能够深入理解泰米尔语歌曲的文化背景和语言特征。此外，该数据集还可用于构建音乐推荐系统，帮助用户发现与其音乐偏好相匹配的歌曲。

解决学术问题

Tamil Songs Corpus数据集解决了泰米尔语歌曲研究中数据稀缺的问题。通过提供大量结构化的歌曲数据，研究者能够进行深入的文本挖掘和语义分析，探索泰米尔语歌曲中的语言模式和文化内涵。该数据集还为跨语言音乐研究提供了宝贵资源，促进了泰米尔语与其他语言之间的比较研究。此外，数据集中的预处理数据简化了研究者的工作流程，使得复杂的分析任务变得更加高效。

衍生相关工作

Tamil Songs Corpus数据集衍生了许多相关的研究工作。例如，基于该数据集的研究者开发了泰米尔语歌词的情感分析模型，能够自动识别歌曲中的情感倾向。此外，该数据集还被用于构建泰米尔语歌曲的自动分类系统，能够根据歌曲的歌词和元数据将其归类到不同的音乐风格中。其他相关研究还包括泰米尔语歌曲的语义搜索系统，用户可以通过输入部分歌词或关键词快速找到相关歌曲。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集