livedoor-news-corpus

github2023-10-28 更新2024-05-31 收录

新闻文本

自然语言处理

数据链接：

https://github.com/shunk031/huggingface-datasets_livedoor-news-corpus 数据链接链接失效反馈

官方服务：

资源简介：

本语料库收集了由NHN Japan公司运营的livedoor新闻中，适用于Creative Commons License 署名-禁止演绎的新闻文章，并尽可能去除了HTML标签。

This corpus comprises news articles from livedoor News, operated by NHN Japan, which are suitable for the Creative Commons Attribution-NoDerivs license. The dataset has been meticulously curated to remove HTML tags to the greatest extent possible.

创建时间：

2023-01-17

原始信息汇总

数据集概述

数据集基本信息

名称: livedoor-news-corpus
语言: 日语（ja）
多语言性: 单语种
许可证: 知识共享署名-禁止演绎 4.0 国际许可（cc-by-nd-4.0）

数据集结构

数据实例

数据集类型: DatasetDict
数据分割:
- 训练集: 包含5894个实例
- 验证集: 包含737个实例
- 测试集: 包含736个实例
特征:
- url
- date
- title
- content
- category

数据集创建

许可证信息

许可证类型: 知识共享署名-禁止演绎 4.0 国际许可
适用范围: 各新闻文章文件
版权声明要求: 根据新闻类别不同，具体要求请查看下载文件展开后的子目录中的LICENSE.txt文件

贡献者

数据集创建者: RONDHUIT Co., Ltd.

搜集汇总

数据集介绍

构建方式

livedoor-news-corpus 数据集的构建基于 NHN Japan 株式会社运营的「livedoor ニュース」平台上的新闻文章。这些文章在收集后经过处理，尽可能去除了 HTML 标签，以确保数据的纯净性。数据集中的每篇文章均遵循「表示 – 改変禁止」的创意共享许可协议，确保了数据的合法性和规范性。

特点

该数据集的特点在于其专注于日语新闻文本，涵盖了多个新闻类别，提供了丰富的文本分类任务素材。数据集中的每篇文章均包含 URL、日期、标题、内容和类别等字段，结构清晰，便于进行多类别文本分类任务的研究与应用。

使用方法

使用 livedoor-news-corpus 数据集时，可以通过 Hugging Face 的 `datasets` 库进行加载。用户可以根据需求设置训练集、验证集和测试集的比例，并通过随机种子和洗牌功能确保数据分割的随机性和可重复性。加载后的数据集可直接用于文本分类模型的训练与评估，为自然语言处理研究提供了便利。

背景与挑战

背景概述

Livedoor News Corpus 是一个专注于日语新闻文本分类的数据集，由NHN Japan株式会社运营的livedoor新闻平台上的新闻文章构成。该数据集创建于2010年代初期，旨在为自然语言处理领域的研究者提供一个高质量、多样化的文本分类基准。其核心研究问题在于如何通过机器学习模型对新闻文章进行多类别分类，涵盖了多个新闻类别，如体育、娱乐、科技等。该数据集在日语文本分类任务中具有重要影响力，为相关研究提供了丰富的实验数据。

当前挑战

Livedoor News Corpus 在构建过程中面临的主要挑战包括数据清洗与标准化。由于新闻文章通常包含大量HTML标签和广告信息，如何有效去除这些噪声并保留有用的文本内容是一个技术难题。此外，数据集的类别分布不均衡可能导致模型训练时的偏差问题。在应用层面，如何设计高效的分类算法以处理日语的复杂语法结构和丰富的词汇表达，也是该数据集所面临的挑战之一。

常用场景

经典使用场景

Livedoor News Corpus 数据集广泛应用于自然语言处理领域，特别是在文本分类任务中。该数据集包含了来自日本门户网站 Livedoor 的新闻文章，涵盖了多个类别，如体育、娱乐、科技等。研究人员通常利用该数据集进行多类别文本分类模型的训练和评估，以验证模型在处理不同主题文本时的性能。

衍生相关工作

基于 Livedoor News Corpus 数据集，许多经典的研究工作得以展开。例如，研究人员开发了多种基于深度学习的文本分类模型，如卷积神经网络（CNN）和循环神经网络（RNN），并在该数据集上进行了性能验证。此外，该数据集还催生了一系列关于日语文本处理的研究，推动了日语自然语言处理技术的发展。

数据集最近研究