Liputan 6 news article dataset

github2024-07-16 更新2024-07-29 收录

下载链接：

https://github.com/andreanstev/News_Article_Summarization

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来自Liputan6.com，涵盖了印尼主要发生的事件和各种主题的新闻，时间跨度从2000年10月到2010年10月。

This dataset is sourced from Liputan6.com, covering news on major events that occurred in Indonesia and a wide range of topics, with a time span ranging from October 2000 to October 2010.

创建时间：

2024-07-13

原始信息汇总

新闻文章摘要数据集

数据集概述

来源：Liputan6.com
时间范围：2000年10月至2010年10月
内容：涵盖印度尼西亚的各种主题和事件
用途：用于Koto et al. (2020)研究中的大规模摘要数据集

模型评估指标

rouge1：基于单字（1-gram）的评分
rouge2：基于双字（2-gram）的评分
rougeL：基于最长公共子序列的评分
rougeLSum：使用" "分割文本

项目结构

数据准备
- 将多个句子合并为一个句子，用于"clean_article"和"clean_summary"
探索性数据分析
- 对文章及其摘要的内容进行深入分析，理解其结构、分布和关键特征
数据预处理
- 文本清洗过程
微调
- 对编码器-解码器模型进行微调，用于抽象文本摘要

结果

BERT2BERT模型在ROUGE指标上表现优于BERT2GPT，可能是由于训练数据量限制（仅使用3000篇文章进行微调）。
T5模型在ROUGE指标上表现低于BERT编码器及其解码器对，可能是由于原始微调模型的效果不佳（T5模型在微调前的ROUGE-1评分仅为0.0287）。

搜集汇总

数据集介绍

构建方式

Liputan 6新闻文章数据集的构建基于Liputan6.com网站上长达十年的新闻报道，时间跨度从2000年10月到2010年10月。该数据集涵盖了印度尼西亚国内外的各种主题和事件，通过系统地收集和整理在线新闻文章，形成了一个大规模的摘要数据集。这一构建过程不仅确保了数据的广泛性和多样性，还为后续的研究和模型训练提供了丰富的语料资源。

特点

Liputan 6新闻文章数据集的显著特点在于其广泛的时间跨度和丰富的内容覆盖。数据集不仅包含了多种主题的新闻报道，还通过详细的摘要信息，提供了对文章内容的精炼概括。此外，数据集在构建过程中进行了细致的文本清洗和预处理，确保了数据的高质量和一致性，为后续的文本摘要和自然语言处理任务提供了坚实的基础。

使用方法

Liputan 6新闻文章数据集主要用于文本摘要和自然语言处理任务。用户可以通过加载数据集，进行数据准备、探索性数据分析和数据预处理等步骤，为模型训练和评估做好准备。数据集支持多种模型评估指标，如ROUGE-1、ROUGE-2和ROUGE-L等，帮助用户全面评估模型的性能。此外，数据集还提供了详细的模型微调指南，使用户能够针对特定任务进行有效的模型优化。

背景与挑战

背景概述

Liputan 6新闻文章数据集是由Koto等人于2020年创建的，旨在支持大规模的印度尼西亚新闻摘要研究。该数据集源自Liputan6.com，涵盖了印度尼西亚境内发生的各种主题和事件，时间跨度从2000年10月至2010年10月，共计十年。这一数据集的构建不仅丰富了印度尼西亚语境下的自然语言处理资源，还为新闻摘要技术的研究提供了宝贵的数据支持，推动了相关领域的发展。

当前挑战

尽管Liputan 6新闻文章数据集在新闻摘要领域具有重要意义，但其构建和应用过程中仍面临若干挑战。首先，数据集的时间跨度较长，涵盖了多样化的主题和事件，这要求在数据预处理阶段进行复杂的文本清洗和结构化处理。其次，数据集的规模相对有限，仅包含3000篇文章，这在训练大型模型时可能不足以捕捉文本中的长距离依赖关系。此外，模型评估指标如ROUGE的局限性也使得摘要质量的评估变得复杂，尤其是在处理多语种和多文化背景下的文本时。

常用场景

经典使用场景

Liputan 6新闻文章数据集的经典使用场景主要集中在文本摘要领域。该数据集通过收集Liputan6.com网站上长达十年的新闻文章，涵盖了印尼国内外的各种主题和事件，为研究人员提供了丰富的文本资源。这些文章及其摘要被广泛用于训练和评估自动文本摘要模型，特别是在印尼语环境中，填补了该语言在自然语言处理研究中的数据空白。

衍生相关工作

Liputan 6新闻文章数据集的发布催生了一系列相关的经典工作。例如，Koto et al. (2020) 的研究利用该数据集开发了高效的印尼语文本摘要模型，显著提升了摘要生成的质量。此外，该数据集还被用于多语言文本摘要模型的研究，推动了跨语言文本处理技术的发展。这些研究不仅丰富了印尼语自然语言处理的理论基础，也为实际应用提供了强有力的技术支持。

数据集最近研究