ithieund/VietNews-Abs-Sum
收藏Hugging Face2022-11-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ithieund/VietNews-Abs-Sum
下载链接
链接失效反馈官方服务:
资源简介:
VietNews-Abs-Sum数据集是一个用于越南语摘要生成任务的数据集,基于Vietnews (VNDS)数据集构建。该数据集包含了从tuoitre.vn, vnexpress.net, 和 nguoiduatin.vn等在线新闻网站收集的文章。数据集经过标点符号标准化处理,并移除了重复样本,最终分为训练集、验证集和测试集,分别包含99134、22184和22498个样本。数据集以TSV和JSONLINE格式存储,便于后续的模型训练。
提供机构:
ithieund
原始信息汇总
数据集概述
数据集名称
- 名称: VietNews-Abs-Sum
- 目的: 用于越南语摘要生成任务
数据来源
- 原始数据: 来自Vietnews (VNDS)数据集,由Van-Hau Nguyen等人发布
- 文章来源: tuoitre.vn, vnexpress.net, nguoiduatin.vn在线报纸
数据处理
- 原始数据: 从Vietnews数据集的Train/Val/Test分割中提取,经过标点符号标准化处理后存储于
raw目录下,包含三个文件:train.tsv,valid.tsv,test.tsv - 去重处理: 移除所有重复样本,处理步骤包括:
- 从每个子集中移除重复样本
- 合并所有子集,并按顺序:test + val + train
- 从合并后的集合中移除重复样本,并重新分割为三个子集
- 去重后样本数:
train_no_dups.tsv: 99134样本valid_no_dups.tsv: 22184样本test_no_dups.tsv: 22498样本- 总计: 143816样本
数据格式
- 原始格式: TSV
- 处理后格式: JSONLINE,用于支持未来需要此数据格式的训练脚本
目录结构
- raw: 包含三个原始子集文件
- processed: 包含去重后的子集及JSONLINE格式文件
致谢
- 贡献者: Vietnews (VNDS)作者,链接: Vietnews GitHub



