five

ithieund/VietNews-Abs-Sum

收藏
Hugging Face2022-11-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ithieund/VietNews-Abs-Sum
下载链接
链接失效反馈
官方服务:
资源简介:
VietNews-Abs-Sum数据集是一个用于越南语摘要生成任务的数据集,基于Vietnews (VNDS)数据集构建。该数据集包含了从tuoitre.vn, vnexpress.net, 和 nguoiduatin.vn等在线新闻网站收集的文章。数据集经过标点符号标准化处理,并移除了重复样本,最终分为训练集、验证集和测试集,分别包含99134、22184和22498个样本。数据集以TSV和JSONLINE格式存储,便于后续的模型训练。
提供机构:
ithieund
原始信息汇总

数据集概述

数据集名称

  • 名称: VietNews-Abs-Sum
  • 目的: 用于越南语摘要生成任务

数据来源

  • 原始数据: 来自Vietnews (VNDS)数据集,由Van-Hau Nguyen等人发布
  • 文章来源: tuoitre.vn, vnexpress.net, nguoiduatin.vn在线报纸

数据处理

  • 原始数据: 从Vietnews数据集的Train/Val/Test分割中提取,经过标点符号标准化处理后存储于raw目录下,包含三个文件:train.tsv, valid.tsv, test.tsv
  • 去重处理: 移除所有重复样本,处理步骤包括:
    • 从每个子集中移除重复样本
    • 合并所有子集,并按顺序:test + val + train
    • 从合并后的集合中移除重复样本,并重新分割为三个子集
  • 去重后样本数:
    • train_no_dups.tsv: 99134样本
    • valid_no_dups.tsv: 22184样本
    • test_no_dups.tsv: 22498样本
    • 总计: 143816样本

数据格式

  • 原始格式: TSV
  • 处理后格式: JSONLINE,用于支持未来需要此数据格式的训练脚本

目录结构

  • raw: 包含三个原始子集文件
  • processed: 包含去重后的子集及JSONLINE格式文件

致谢

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作