BalitaNLP Dataset

github2023-12-11 更新2024-05-31 收录

下载链接：

https://github.com/KenrickLance/BalitaNLP-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于图像条件语言生成和文本条件图像生成的菲律宾多模态语言数据集。包含从菲律宾新闻媒体收集的351,755篇菲律宾新闻文章。

A Filipino multimodal language dataset designed for image-conditioned language generation and text-conditioned image generation. It comprises 351,755 Filipino news articles collected from various Philippine news media.

创建时间：

2023-04-04

原始信息汇总

BalitaNLP Dataset 概述

数据集描述

类型: 多模态语言数据集，包含文本和视觉信息。
语言: 菲律宾语。
来源: 从菲律宾新闻媒体收集的351,755篇新闻文章及其相关图片。
发布: 原始数据集由Buñag & Esquivel于2023年发布。

数据集内容

文章数量: 351,755篇。
数据分割: 80%用于训练，10%用于验证，10%用于测试。
数据字段:
- body: 文章文本。
- title: 文章标题。
- website: 新闻媒体名称。
- category: 新闻类别。
- date: 发布日期。
- author: 作者（其中32,174篇文章无作者信息）。
- url: 文章URL。
- img_url: 图片URL。
- img_path: 图片文件名。

数据格式

格式: JSON。
示例: json { "body": ["paragraph1", "paragraph2", ...], "title": "Philippine Swimming League tutuklas ng bagong talento", "website": "Abante", "category": "Sports", "date": "Jul 8, 2019", "author": "Jose Reyes", "url": "https://www.abante.com.ph/2019/04/04/philippine-swimming-league-tutuklas-ng-bagong-talento/", "img_url": "https://www.abante.com.ph/wp-content/uploads/2019/04/abante-swimming.jpg", "img_path": "a14690aff7cba59b358e8c97b684c58f29537e0716caa21bfd511da8996b078c.jpg" }

下载链接

数据集: 链接
图片:
- part1: 链接
- part2: 链接
- part3: 链接
- part4: 链接

搜集汇总

数据集介绍

构建方式

BalitaNLP数据集是一个多模态语言数据集，专注于菲律宾新闻文章及其相关图像的收集与整理。该数据集从菲律宾多家新闻媒体中提取了351,755篇新闻文章，每篇文章均附有相应的图像。数据集的构建过程严格遵循新闻发布的原始格式，确保信息的完整性与真实性。文章内容以JSON格式存储，包含标题、正文、新闻类别、发布日期、作者、新闻来源、文章URL及图像URL等八个字段。数据集的划分采用80-10-10的比例，分别用于训练、验证和测试。

特点

BalitaNLP数据集的特点在于其多模态性质，结合了文本与视觉信息，为研究者提供了丰富的跨模态分析资源。数据集涵盖了广泛的新闻类别，包括体育、政治、文化等，反映了菲律宾社会的多样性。每篇文章均附有高质量的图像，增强了数据的视觉表现力。此外，数据集的规模庞大，包含超过35万篇文章，为深度学习模型的训练提供了充足的样本。尽管部分文章缺少作者信息，但整体数据的完整性与多样性使其成为研究菲律宾语言与文化的宝贵资源。

使用方法

BalitaNLP数据集的使用方法灵活多样，适用于多种自然语言处理与计算机视觉任务。研究者可以通过解析JSON文件获取文章的文本与图像信息，进而进行文本分类、图像标注、跨模态检索等实验。数据集的划分已预先完成，用户可直接使用训练集、验证集和测试集进行模型训练与评估。对于图像处理任务，用户可通过img_path字段定位本地图像文件，或通过img_url字段在线获取图像。此外，数据集的多模态特性使其特别适合用于研究文本与图像之间的关联性，例如生成式任务或跨模态理解。

背景与挑战

背景概述

BalitaNLP数据集是由Buñag和Esquivel于2023年发布的一个多模态语言数据集，专注于菲律宾新闻文章及其相关图像的文本-视觉任务。该数据集包含351,755篇来自菲律宾新闻媒体的文章，每篇文章均附有图像，涵盖了广泛的新闻类别。该数据集的发布旨在推动菲律宾语的自然语言处理研究，特别是在多模态任务中的应用。其数据来源多样，涵盖了多个新闻媒体，确保了数据的广泛性和代表性。BalitaNLP数据集的发布为菲律宾语的自然语言处理研究提供了重要的资源，填补了该领域数据集的空白。

当前挑战

BalitaNLP数据集面临的挑战主要集中在两个方面。首先，多模态任务的复杂性要求模型能够同时处理文本和图像信息，这对模型的架构和训练策略提出了更高的要求。其次，数据集的构建过程中，确保数据的质量和一致性是一个重要挑战，尤其是在处理大量新闻文章时，如何有效清洗和标注数据以去除噪声和冗余信息。此外，部分文章缺少作者信息，这可能会影响某些特定任务的研究，如作者身份识别或文本风格分析。这些挑战需要在后续的研究中通过更精细的数据处理和模型优化来解决。

常用场景

经典使用场景

BalitaNLP数据集作为菲律宾多模态语言数据集，广泛应用于文本与视觉任务的联合研究。其经典使用场景包括新闻文章的自动摘要生成、图像与文本的跨模态检索以及基于新闻内容的分类任务。研究者可以通过该数据集训练模型，使其能够理解菲律宾新闻的多模态信息，从而提升模型在自然语言处理和计算机视觉领域的表现。

实际应用

在实际应用中，BalitaNLP数据集为新闻媒体、内容推荐系统和信息检索平台提供了重要支持。例如，新闻机构可以利用该数据集训练模型，自动生成新闻摘要或推荐相关新闻内容。此外，该数据集还可用于开发多语言新闻分类系统，帮助用户快速筛选感兴趣的新闻类别，提升信息获取效率。

衍生相关工作

基于BalitaNLP数据集，研究者已开展了多项经典工作，包括多模态语言模型的预训练、跨模态检索算法的优化以及低资源语言的自然语言处理任务。例如，Buñag和Esquivel（2023）利用该数据集提出了基于Transformer的条件语言模型，显著提升了菲律宾语新闻内容的理解能力。这些工作不仅推动了多模态研究的发展，也为低资源语言的技术应用提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集