projecte-aina/caBreu
收藏数据集卡片 for caBREU
数据集描述
数据集摘要
caBreu 是一个加泰罗尼亚语的摘要数据集,由 BSC LangTech 单元制作。该数据集包含 3,000 篇文章,每篇文章平均约 700 字,并附有极简、抽象和抽取式摘要,由三名标注者手动生成。文章的来源材料来自多个加泰罗尼亚新闻源,包括加泰罗尼亚新闻社(Agència Catalana de Notícies; ACN)、VilaWeb 和 NacióDigital。
支持的任务和排行榜
摘要生成
语言
数据集使用加泰罗尼亚语(ca-ES)。
数据集结构
数据实例
json { "id": "219", "title": "Un estudi revela que el risc de morir després d’un ictus es multiplica si l’edat biològica és superior a la cronològica", "subtitle": "El treball, realitzat per investigadors de lInstitut Hospital del Mar i publicat a Scientific Reports, ha analitzat dades de 600 pacients", "content": "El risc de morir després de patir un ictus isquèmic es multiplica si l’edat biològica, que ve marcada pels hàbits de vida o el lloc de residència, entre altres factors, és superior a l’edat cronològica, marcada per la data de naixement. Així ho constata un estudi realitzat per investigadors del Grup de recerca Neurovascular de l’Institut Hospital del Mar d’Investigacions Mèdiques (IMIM). Segons els resultats obtinguts, cada any d’edat biològica acumulat per sobre de l’edat cronològica, augmenta un 6% el risc de morir en un període de tres mesos després de patir un ictus. Alhora, també el grau de severitat de les seqüeles és més important. El treball, que s’ha publicat a la revista ‘Scientific Reports’, ha analitzat les dades de gairebé 600 pacients. La investigadora principal de l’estudi, la doctora Carolina Soriano-Tárraga, explica que es van analitzar gairebé 600 pacients atesos a l’Hospital del Mar per un ictus isquèmic i que en aquests casos, la mortalitat mitjana al cap de tres mesos es va situar entre el 15 i el 20%. Els investigadors van determinar la seva edat biològica a partir de marcadors epigenètics (canvis en els gens causats per factors externs), concretament, la metilació de l’ADN (el principal mecanisme epigenètic). Així van comprovar, segons comenta Soriano-Tárraga, que l’edat biològica aporta informació extra. ‘Es correlaciona molt bé amb l’edat cronològica, és molt similar, però té informació extra sobre l’estat funcional de la persona’, apunta Soriano-Tárraga. Per tant, afegeix, ‘és un millor predictor de mortalitat a tres mesos en comparació amb l’edat cronològica’, fins i tot sense tenir en compte altres factors externs, la gravetat de l’ictus o l’estat funcional previ del pacient. L’estudi també va analitzar el pes de l’edat biològica tenint en compte el tipus d’ictus. Així, en els ictus aterotrombòtics, que acostumen a donar-se en pacients més joves -entre 55 i 60 anys de mitjana-, va ser en els que es va mostrar com un millor indicador de mortalitat. En canvi, en els cardioembòlics, més habituals en pacients de més edat, l’efecte de l’edat biològica no era evident. Això confirma, segons la investigadora principal de l’estudi, que l’edat biològica és un bon biomarcador. ‘En un pacient jove l’edat biològica, l’estil de vida, té un major impacte, indica un envelliment més gran’ i un risc més elevat de mortalitat després de patir un atac, així com una major severitat de les seqüeles, destaca Soriano-Tárraga. És a dir, ‘no són tan joves’ com indica la seva edat cronològica, afegeix. Els investigadors assenyalen que estudis anteriors que comparaven pacients que havien patit un ictus amb pacients que no n’havien patit, indicaven que per una mateixa edat cronològica, el grau d’envelliment dels ictus era de 2,5 anys més gran de mitjana, sent de fins a 7 anys en els casos més joves. La utilització d’aquest marcador ‘pot servir per detectar els pacients que tenen un risc més elevat de morir després de patir un ictus’, segons Soriano-Tárraga. Per la seva banda, el doctor Jordi Jiménez-Conde, neuròleg de l’Hospital del Mar responsable de la línia de recerca, ha remarcat que aquest estudi ‘és molt congruent amb les troballes dels nostres estudis previs, corroborant que l’edat biològica té un gran valor informatiu sobre l’estat d’envelliment real de les persones, sobre el seu risc de patir malalties associades a l’edat, i sobre la capacitat de l’individu d’afrontar-les’. Hi ha dos tipus d’ictus principals, els hemorràgics (quan es trenca un vas sanguini al cervell) i els isquèmics (quan s’obtura una de les artèries del cervell). L’ictus aterotrombòtic és el tercer més freqüent i la seva causa subjacent, l’ateroesclerosi és tractable. Aquesta patologia està associada a alts nivells de colesterol, a l’hàbit del tabac i la diabetis. En general, el 90% dels ictus estan relacionats amb factors de risc com aquests.", "category": [ "societat", "sanitat" ], "source": "vilaweb", "summaries": { "extreme": { "a1": "El risc de morir en patir un ictus és més alt si els hàbits o la residència habitual no són favorables.", "a2": "Un estudi confirma que el risc de morir després dun ictus augmenta si ledat biològica és superior a ledat cronològica.", "a3": "El risc de mort després dun ictus isquèmic puja si ledat biològica és superior a ledat cronològica." }, "abstractive": { "a1": "Segons els resultats obtinguts del grup de recerca IMIM, el risc de morir per patir un ictus isquèmic es multiplica si l’edat biològica és superior a l’edat cronològica. La doctora Carolina Soriano-Tárraga afirma que es van analitzar 600 pacients i que la mortalitat al cap de tres mesos era del 15 i el 20%.", "a2": "Ledat biològica ve marcada pel lloc de residència o pels hàbits de vida. Un estudi realitzat a lHospital del Mar amb uns 600 pacients confirma que el risc de mortaldat després dun ictus és més gran si ledat biològica del pacient supera la cronològica, que és la que ve marcada per la data de naixement.", "a3": "Segons un estudi del Grup de Recerca Neurovascular de lInstitut Hospital del Mar dInvestigacions Mèdiques, la possibilitat de morir després dhaver patit un ictus isquèmic és superior quan ledat biològica del pacient (determinada pels hàbits) és superior a ledat cronològica (determinada pel naixement). Així, ledat biològica és un marcador més fiable que la cronològica a lhora de preveure la mortalitat." }, "extractive": { "a1": "El risc de morir després de patir un ictus isquèmic es multiplica si l’edat biològica, que ve marcada pels hàbits de vida o el lloc de residència, entre altres factors, és superior a l’edat cronològica, marcada per la data de naixement. Segons els resultats obtinguts, cada any d’edat biològica acumulat per sobre de l’edat cronològica, augmenta un 6% el risc de morir en un període de tres mesos després de patir un ictus. La investigadora principal de l’estudi, la doctora Carolina Soriano-Tárraga, explica que es van analitzar gairebé 600 pacients atesos a l’Hospital del Mar per un ictus isquèmic i que en aquests casos, la mortalitat mitjana al cap de tres mesos es va situar entre el 15 i el 20%. Per tant, afegeix, ‘és un millor predictor de mortalitat a tres mesos en comparació amb l’edat cronològica’, fins i tot sense tenir en compte altres factors externs, la gravetat de l’ictus o l’estat funcional previ del pacient. ", "a2": "El risc de morir després de patir un ictus isquèmic es multiplica si l’edat biològica, que ve marcada pels hàbits de vida o el lloc de residència, entre altres factors, és superior a l’edat cronològica, marcada per la data de naixement. Segons els resultats obtinguts, cada any d’edat biològica acumulat per sobre de l’edat cronològica, augmenta un 6% el risc de morir en un període de tres mesos després de patir un ictus. El treball, que s’ha publicat a la revista ‘Scientific Reports’, ha analitzat les dades de gairebé 600 pacients. Per tant, afegeix, ‘és un millor predictor de mortalitat a tres mesos en comparació amb l’edat cronològica’, fins i tot sense tenir en compte altres factors externs, la gravetat de l’ictus o l’estat funcional previ del pacient.", "a3": "El risc de morir després de patir un ictus isquèmic es multiplica si l’edat biològica, que ve marcada pels hàbits de vida o el lloc de residència, entre altres factors, és superior a l’edat cronològica, marcada per la data de naixement. Segons els resultats obtinguts, cada any d’edat biològica acumulat per sobre de l’edat cronològica, augmenta un 6% el risc de morir en un període de tres mesos després de patir un ictus. Així ho constata un estudi realitzat per investigadors del Grup de recerca Neurovascular de l’Institut Hospital del Mar d’Investigacions Mèdiques (IMIM). ‘En un pacient jove l’edat biològica, l’estil de vida, té un major impacte, indica un envelliment més gran’ i un risc més elevat de mortalitat després de patir un atac, així com una major severitat de les seqüeles, destaca Soriano-Tárraga. " } } }
数据字段
id(str): 新闻片段的IDtitle(str): 新闻片段的标题subtitle(str): 新闻片段的副标题content(str): 新闻片段的文本内容category(str): 新闻片段的分类source(list): 新闻片段的来源summaries(str): 新闻片段的摘要extreme(str): 新闻片段的极简摘要abstractive(str): 新闻片段的抽象摘要extractive(str): 新闻片段的抽取式摘要
数据分割
数据集被分为训练、验证和测试集:
- 训练集:2,399 篇文档
- 验证集:299 篇文档
- 测试集:301 篇文档
数据集创建
策划理由
我们创建这个语料库是为了促进加泰罗尼亚语这种低资源语言的模型发展。加泰罗尼亚语的摘要资源很少。
源数据
初始数据收集和规范化
文章的来源材料来自多个加泰罗尼亚新闻源。
源语言生产者是谁?
加泰罗尼亚新闻社(Agència Catalana de Notícies; ACN)、VilaWeb 和 NacióDigital。
标注
抽取式、抽象式和极简摘要。
标注过程
摘要由三名标注者手动生成,并遵循明确的指导方针。
对于抽取式摘要,标注者被要求从原文中选择四句话,概括其最重要的信息。
在极简摘要的情况下,标注者撰写了一个简洁的 15 到 20 字的句子,概括了文本的主要主题,回答了“这篇文本是关于什么的?”的问题。
最后,抽象式摘要要求标注者生成一个 50 到 60 字的摘要,用自己的话简洁地概述文本的关键信息。这些摘要必须保持清晰、客观,不包含个人意见、想法或解释,同时符合文本的时态、结构,并避免过于冗长的句子。
标注者是谁?
所有的标注者都是加泰罗尼亚语的母语者。
个人和敏感信息
由于所有数据来自公共网站,因此没有进行匿名化处理。
使用数据的考虑
数据集的社会影响
我们希望这个语料库有助于加泰罗尼亚语这种低资源语言的摘要模型的发展。
偏见的讨论
[N/A]
其他已知限制
[N/A]
附加信息
数据集策展人
巴塞罗那超级计算中心(Barcelona Supercomputing Center)的语言技术单元(langtech@bsc.es)
这项工作得到了加泰罗尼亚政府通过 Aina 项目(https://projecteaina.cat/)的支持和资助。
许可信息
这项工作根据 Attribution-NonCommercial-NoDerivs 4.0 International(https://creativecommons.org/licenses/by-nc-nd/4.0/deed.ca)许可进行。
许可证已更新为更严格的开放许可。因此,任何在 2024 年 3 月 28 日之后开始的下载都必须遵守当前的许可条款。
引用信息
@inproceedings{gonzalez-agirre-etal-2024-building-data, title = "Building a Data Infrastructure for a Mid-Resource Language: The Case of {C}atalan", author = "Gonzalez-Agirre, Aitor and Marimon, Montserrat and Rodriguez-Penagos, Carlos and Aula-Blasco, Javier and Baucells, Irene and Armentano-Oller, Carme and Palomar-Giner, Jorge and Kulebi, Baybars and Villegas, Marta", editor = "Calzolari, Nicoletta and Kan, Min-Yen and Hoste, Veronique and Lenci, Alessandro and Sakti, Sakriani and Xue, Nianwen", booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)", month = may, year = "2024", address = "Torino, Italia", publisher = "ELRA and ICCL", url = "https://aclanthology.org/2024.lrec-main.231", pages = "2556--2566", }
贡献
[N/A]



