projecte-aina/vilasum
收藏Hugging Face2024-09-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/vilasum
下载链接
链接失效反馈官方服务:
资源简介:
VilaSum是一个用于摘要生成任务的数据集,包含来自加泰罗尼亚新闻门户VilaWeb的新闻文章及其摘要。数据集包含13,843个实例,每个实例由标题和正文组成。数据集的语言为加泰罗尼亚语(ca-ES),并且是单语言的。数据集的创建旨在为加泰罗尼亚语这种低资源语言的语言模型开发做出贡献。数据集未进行注释,且所有数据均来自公共网站,因此未进行匿名化处理。数据集的创建者包括巴塞罗那超级计算中心的文本挖掘单元(TeMU),并且该工作由MT4All CEF项目和加泰罗尼亚政府的数字政策和领土部门资助。
提供机构:
projecte-aina
原始信息汇总
数据集概述
数据集名称
- 名称: VilaSum
- 别名: casum
数据集描述
数据集摘要
- 摘要: VilaSum是一个用于评估的摘要数据集,从加泰罗尼亚新闻门户网站VilaWeb爬取的新闻稿中提取,包含13,843个实例,每个实例由新闻标题和正文组成。
支持的任务和排行榜
- 任务: 抽象摘要
- 评估指标: Rouge分数
- 当前最佳模型: mbart-base-ca-casum,得分为35.04
语言
- 语言: 加泰罗尼亚语 (
ca-ES)
数据集结构
数据实例
- 示例: 包含新闻摘要和完整文本
数据字段
summary(str): 新闻摘要text(str): 新闻全文
数据分割
- 分割: 仅用于评估的测试集
- 数量: 13,843个示例
数据集创建
数据收集和规范化
- 来源: VilaWeb新闻门户网站
- 处理流程: 去重、删除空属性文档、删除模板句
注释
- 注释状态: 未注释
使用数据注意事项
社会影响
- 目标: 促进加泰罗尼亚语摘要模型的发展
偏见讨论
- 偏见来源: 数据来自不可靠网页,可能存在偏见
- 处理: 未采取措施减少偏见影响



