Subset of 'MLSUM: The Multilingual Summarization Corpus' for constraints annotation experiment
收藏NIAID Data Ecosystem2026-05-01 收录
下载链接:
https://zenodo.org/record/8399301
下载链接
链接失效反馈官方服务:
资源简介:
[EN] Subset of 'MLSUM: The Multilingual Summarization Corpus' for constraints annotation experiment.
Description: MLSUM is a dataset of newspappers articles aimed at training summaring model. We use it for a constraints annotation experiment on newspapper titles according to their topic classification.
Content: For constraints annotation experiment based on data similarity, this dataset have been subsetted (randomly pick 75 articles in the following 14 most used topics: 'economie', 'politique', 'sport', 'planete' (renamed in 'ecologie'), 'sciences', 'police-justice', 'disparitions', 'emploi', 'sante', 'musiques', 'arts', 'educations', 'climat' (renamed in 'meteo'), 'immobilier') and filtered (keep articles that have an obvious topics regarding their titles, without their bodies). Two reviewers have working on this task in order to limit the subjectivity of the filtering. This subsetted dataset is used (1) to estimate needed time to annotate titles similarity with constraints (MUST-LINK, CANNOT-LINK) and (2) to test interactive clustering methodology (constraints annotation and constrained clustering).
Origin: The dataset is bassed on the original 'MLSUM: The Multilingual Summarization Corpus' dataset (https://doi.org/10.48550/arXiv.2004.14900).
[FR] Echantillon de 'MLSUM: The Multilingual Summarization Corpus' pour une expérience d'annotation de contraintes.
Description : MLSUM est un ensemble de données d'articles de journaux destinés à l'entraînement d'un modèle de résumé automatique. Nous l'utilisons pour une expérience d'annotation de contraintes sur des titres de journaux en fonction de leur classification thématique.
Contenu : Pour une expérience d'annotation de contraintes basée sur la similarité des données, cet ensemble de données a été échantillonné (sélectionner au hasard de 75 articles dans les 14 sujets les plus utilisés : 'économie', 'politique', 'sport', 'planète' (renommé en « écologie »). ), 'sciences', 'police-justice', 'disparitions', 'emploi', 'sante', 'musiques', 'arts', 'éducations', 'climat' (renommé en 'meteo'), 'immobilier' ) et filtré (conserver les articles qui ont un sujet évident par rapport à leur titre, sans leur corps). Deux relecteurs ont travaillé sur cette tâche afin de limiter la subjectivité du filtrage. Ce sous-ensemble de données est utilisé (1) pour estimer le temps nécessaire pour annoter la similarité des titres avec des contraintes (MUST-LINK, CANNOT-LINK) et (2) pour tester la méthodologie de clustering interactif (annotation de contraintes et clustering contraint).
Origine : L'ensemble de données est basé sur l'ensemble de données original 'MLSUM : The Multilingual Summarization Corpus' (https://doi.org/10.48550/arXiv.2004.1490).
创建时间:
2023-11-14



