id_liputan6
收藏OpenCSG2024-07-19 更新2026-01-19 收录
下载链接:
https://opencsg.com/datasets/AIWizards/id_liputan6?tab=summary
下载链接
链接失效反馈官方服务:
资源简介:
Large-scale Indonesian Summarization语料库,专注于印尼语文本摘要任务。它包含超过20万篇文档-摘要对,来源于在线新闻门户Liputan6。该语料库提供两种变体:"canonical"和"xtreme",后者在验证集和测试集中过滤掉了摘要中4-gram新颖性低于90%的样本。数据集中每条样本都包括ID、原始文章URL、清洗后的文章内容、抽象式摘要以及抽取式摘要等字段。此语料库支持抽取式和生成式摘要方法,并提供基于BERT模型的基准测试。
提供机构:
AIWizards
创建时间:
2024-07-19



