regicid/LRFAF
收藏Hugging Face2024-03-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/regicid/LRFAF
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: corpus
data_files: "corpus.csv"
default: true
- config_name: data_aggregated
data_files:
- split: full
path: "data_aggregated/results_rappeurs.csv"
- split: filtered
path: "data_aggregated/results_rappeurs_filtered.csv"
---
Corpus de 37 000 textes de rap français issus du site genius.com, en croisant des catégories Wikipédia/Wikidata avec l'API de Genius. En sus des lyrics, le fichier contient les métadonnées suivantes : artiste, date, album (à ajouter), nombre de vues, contributeurs, URL et sous-genre (renseignés à l'aide de topic modelling, grâce à l'outil Bunka de Charles de Dampierre). La variable "ranking" est le classement au sein du topic que renvoie Bunka, il peut être pris comme un proxy du point auquel le titre correspond au topic. Un ranking NA peut être pris comme un indice de forte incertitude sur le topic, et l'on peut légitimement vouloir exclure ses chansons dans ses analyses. Pour une explication du nom du corpus, veuillez-voir l'article associé.
Pour ceux qui n'aimeraient pas Huggingface, voici un lien de téléchargement direct : <https://huggingface.co/datasets/regicid/LRFAF/resolve/main/corpus.csv?download=true>.
Ce corpus n'a pas de licence. C'est une zone grise juridique, mais je considère que les données n'appartiennent ni à Genius, ni à moi. Leur seul ayant droit est les artistes eux-même, qui, s'ils se sentent lésés, peuvent légitimement me demander de retirer ce jeu de données. C'est l'interprétation qu'a faite la Cour Suprême des Etats-Unis dans leur récente décision Genius vs. Google :[https://www.reuters.com/legal/us-supreme-court-lets-google-win-stand-against-genius-suit-over-song-lyrics-2023-06-26/].
Il va de soi que ce corpus est destiné à un usage pour la recherche, et non à un usage commercial. Si une personne en fait un usage commercial, il pourra lui arriver des bricoles et je n'y suis pour rien.
Les fréquences annuelles des mots et groupes de mots (jusqu'à 3 mots) sont explorables graphiquement dans l'application interactive Gallicagram, en choisissant le corpus "Rap". https://shiny.ens-paris-saclay.fr/app/gallicagram
提供机构:
regicid
原始信息汇总
数据集概述
数据集配置
-
配置名称: corpus
- 数据文件: corpus.csv
- 默认: 是
-
配置名称: data_aggregated
- 数据文件:
- split: full
- 路径: data_aggregated/results_rappeurs.csv
- split: filtered
- 路径: data_aggregated/results_rappeurs_filtered.csv
- split: full
- 数据文件:
数据集内容
- 来源: 37,000篇法语说唱文本,源自genius.com,结合Wikipedia/Wikidata类别与Genius API交叉分析。
- 包含信息: 歌词、艺术家、日期、专辑(待添加)、浏览次数、贡献者、URL、子类别(通过Charles de Dampierre的Bunka工具进行主题建模确定)。
- 特殊变量: "ranking"表示在主题内的排名,可作为歌曲与主题对应程度的代理。NA值表示对主题的高度不确定性,可能需要在分析中排除这些歌曲。
数据集使用
- 目的: 仅供研究使用,非商业用途。
- 法律声明: 数据集无明确许可证,数据所有权归艺术家所有。如艺术家感到权益受损,可要求撤回数据集。
附加信息
- 可视化工具: 可通过Gallicagram应用程序探索单词和短语(最多3个单词)的年频率,选择“Rap”作为数据集。



