SoSweet
收藏DataCite Commons2026-02-10 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/sosweet/v1
下载链接
链接失效反馈官方服务:
资源简介:
Ce corpus de tweets a été collecté dans le cadre du projet ANR SoSweet. Il compte 658 747 413 tweets produits entre 2006 et 2019 par 2 878 562 utilisateurs. Pour chacun des utlisateurs est aussi donnée la liste des utilisateurs qui le suivent. L'ensemble a été anonymisé. Le dossier all_data contient l'ensemble de ces tweets. Il contient des fichiers nommés AAAA-MM.zip qui donnent les tweets du mois MM de l'année AAAA. Une fois décompressés, ils fournissent des fichiers de la forme AAA-MM-JJTHH.data qui donnent les tweets de l'heure HH du jour JJ du mois MM de l'année AAAA. Chaque ligne correspond à un tweet au format JSON, donnant le texte du tweet, l'utilisateur et la date.Le dossier annotated_users contient les tweets (tweets.data) et des informations socio-démographiques de 4 974 utilisateurs (users.json). Ces informations socio-démographiques sont :le département de résidence (inféré à partir de la géolocalisation de leurs tweets ; voir Abitbol et al, 2018)le genre (déterminé manuellement à partir de leur profil Twitter)l'année de naissance (déterminée manuellement à partir de leur profil Twitter).le statut socioéconomique ('low', 'medium' ou 'high') déterminé à partir du lieu de résidence inféré à partir de la géolocalisation de leurs tweets et des données carroyées de l'INSEE (https://www.insee.fr/fr/statistiques/6215138?sommaire=6215217). Voir Abitbol et al, 2018. La collecte de ce corpus a reçu un avis favorable (n° 2017-005) du comité opérationnel d'évaluation des risques légaux et éthiques de l'Inria (IRB00013144). Certificat d'enregistrement CNIL 2-17022/UMR5191
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-10



