fajrikoto/id_liputan6
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/fajrikoto/id_liputan6
下载链接
链接失效反馈官方服务:
资源简介:
本数据集是一个大规模的印度尼西亚语摘要数据集,专注于提取式摘要。它包含两个版本:标准版和极限版。数据集从在线新闻门户网站收集,包含215,827个文档-摘要对。该数据集用于开发和基准测试使用预训练语言模型的摘要方法。数据集分为训练、验证和测试集,每个部分都有具体的示例数量和字节数。使用该数据集前需要手动请求并解压缩。
提供机构:
fajrikoto
原始信息汇总
数据集概述
数据集名称
- 名称: Large-scale Indonesian Summarization
语言
- 语言: Indonesian
许可证
- 许可证: unknown
多语言性
- 多语言性: monolingual
大小分类
- 大小分类: 100K<n<1M
源数据集
- 源数据集: original
任务类别
- 任务类别: summarization
任务ID
- 任务ID: news-articles-summarization
数据集配置
- 配置名称: canonical, xtreme
- 特征:
- id: string
- url: string
- clean_article: string
- clean_summary: string
- extractive_summary: string
数据分割
- 验证集:
- 字节数: 20944658
- 示例数: 10972
- 测试集:
- 字节数: 20526768
- 示例数: 10972
- 训练集:
- 字节数: 382245586
- 示例数: 193883
下载和数据集大小
- 下载大小: 0
- 数据集大小: 423717012 (canonical), 17227496 (xtreme)
数据集使用
- 加载命令:
datasets.load_dataset("id_liputan6", canonical, data_dir="<path/to/uncompressed_folder>")或datasets.load_dataset("id_liputan6", xtreme, data_dir="<path/to/uncompressed_folder>")
数据集版本
- 版本: canonical, xtreme
- 差异: xtreme 版本排除了摘要中少于 90% 新 4-grams 的开发和测试文档-摘要对。
引用信息
@inproceedings{Koto2020Liputan6AL, title={Liputan6: A Large-scale Indonesian Dataset for Text Summarization}, author={Fajri Koto and Jey Han Lau and Timothy Baldwin}, booktitle={AACL/IJCNLP}, year={2020} }



