id_liputan6
收藏Opencsg2024-07-19 更新2025-05-03 收录
下载链接:
https://www.opencsg.com/datasets/AIWizards/id_liputan6
下载链接
链接失效反馈官方服务:
资源简介:
Large-scale Indonesian Summarization语料库,专注于印尼语文本摘要任务。它包含超过20万篇文档-摘要对,来源于在线新闻门户Liputan6。该语料库提供两种变体:"canonical"和"xtreme",后者在验证集和测试集中过滤掉了摘要中4-gram新颖性低于90%的样本。数据集中每条样本都包括ID、原始文章URL、清洗后的文章内容、抽象式摘要以及抽取式摘要等字段。此语料库支持抽取式和生成式摘要方法,并提供基于BERT模型的基准测试。
创建时间:
2024-07-19



