Liste des "topics" obtenues à partir du topic modelling effectué sur les tweets du corpus Espadon
收藏DataCite Commons2026-03-10 更新2026-05-04 收录
下载链接:
https://nakala.fr/10.34847/nkl.bc9f63zb
下载链接
链接失效反馈官方服务:
资源简介:
Fichier au format ".csv" contenant la liste des topics identifiées à l'aide de Bertopic (Topic Model).
Le csv est constitué de 6 colonnes:
id : identifiant numérique du topic.
Synthetic_topic : string. Label proposé par Bertopic. Il contient les cinq termes les plus spécifiques du topic.
Topic_name: string. Label proposé par nos soins basé sur le contenu des tweets regroupés au sein du topic.
Group: string. Nom du groupe auquel appartient le topic.
Category: string. Nom de la catégorie à laquelle le topic appartient
Area: string. Nom de la thématique générale à laquelle le topic fait référence.
Comme l'indique les colonnes, nous avons procédés à 3 regroupements. Chacun de ces regroupements correspond à un niveau de généralisation supérieur.
- Les "area" correspondent au niveau supérieur. Il y en a 3 : "Cancer", "Health" (sujets de santé autres que le cancer), "Other" (tweets qui ne parlent de sport, de culture, ou "greeting message")
- les "category" niveau intermédiaire. Il y en a 13. On distingue par exemple les tweets qui parlent des nouveaux traitements en oncologie (News in oncology) de ceux qui font de la sensibilisation pour le dépistage (Cancer Awarness).
- les "groups" : il y en à 49. Parmi les tweets qui parlent de l'actualité en oncologie, on distingue ceux qui parlent des traitements (Posts about treatment) et ceux qui portent sur les autorisations de la FDA (FDA Approval).
Cancer [area]
|_ Cancer Awarness [category]
|_ General Information on Cancer [Group]
|_ Breast Cancer Community [Group]
|_ News in Oncology [category]
|_ Posts about treatment [Group]
|_ Lymphoma treatment [topic]
|_ Treatment trial relying on biomarker [topic]
|_ Immunotherapy [Group]
|_ FDA Approval [Group]
提供机构:
NAKALA - https://nakala.fr (Huma-Num - CNRS)
创建时间:
2026-03-10



