five

fajrikoto/id_liputan6

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/fajrikoto/id_liputan6
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集是一个大规模的印度尼西亚语摘要数据集,专注于提取式摘要。它包含两个版本:标准版和极限版。数据集从在线新闻门户网站收集,包含215,827个文档-摘要对。该数据集用于开发和基准测试使用预训练语言模型的摘要方法。数据集分为训练、验证和测试集,每个部分都有具体的示例数量和字节数。使用该数据集前需要手动请求并解压缩。
提供机构:
fajrikoto
原始信息汇总

数据集概述

数据集名称

  • 名称: Large-scale Indonesian Summarization

语言

  • 语言: Indonesian

许可证

  • 许可证: unknown

多语言性

  • 多语言性: monolingual

大小分类

  • 大小分类: 100K<n<1M

源数据集

  • 源数据集: original

任务类别

  • 任务类别: summarization

任务ID

  • 任务ID: news-articles-summarization

数据集配置

  • 配置名称: canonical, xtreme
  • 特征:
    • id: string
    • url: string
    • clean_article: string
    • clean_summary: string
    • extractive_summary: string

数据分割

  • 验证集:
    • 字节数: 20944658
    • 示例数: 10972
  • 测试集:
    • 字节数: 20526768
    • 示例数: 10972
  • 训练集:
    • 字节数: 382245586
    • 示例数: 193883

下载和数据集大小

  • 下载大小: 0
  • 数据集大小: 423717012 (canonical), 17227496 (xtreme)

数据集使用

  • 加载命令: datasets.load_dataset("id_liputan6", canonical, data_dir="<path/to/uncompressed_folder>")datasets.load_dataset("id_liputan6", xtreme, data_dir="<path/to/uncompressed_folder>")

数据集版本

  • 版本: canonical, xtreme
  • 差异: xtreme 版本排除了摘要中少于 90% 新 4-grams 的开发和测试文档-摘要对。

引用信息

@inproceedings{Koto2020Liputan6AL, title={Liputan6: A Large-scale Indonesian Dataset for Text Summarization}, author={Fajri Koto and Jey Han Lau and Timothy Baldwin}, booktitle={AACL/IJCNLP}, year={2020} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作