Binhvq News Corpus

github2020-04-14 更新2024-05-31 收录

下载链接：

https://github.com/duyvuleo/news-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从互联网上约14,896,998篇文章中提取的越南语新闻语料库，涵盖了多个新闻来源。数据集提供了不同格式的文件，包括标题、全文和分类文本，以及处理和下载信息。

This dataset is a Vietnamese news corpus extracted from approximately 14,896,998 articles on the internet, covering multiple news sources. The dataset provides files in various formats, including titles, full texts, and categorized texts, along with processing and download information.

创建时间：

2019-04-27

原始信息汇总

Binhvq News Corpus 概述

基本信息

数据来源：从互联网上约14,896,998篇文章中提取，涵盖了多个新闻来源。

数据集版本

仅标题数据集
- 大小：压缩后219MB，解压后669MB。
- 标题数量：10,787,976个。
- 下载链接：Google Drive
- 样本：GitHub
完整TXT数据集 V1
- 大小：压缩后3.7GB，解压后约18.6GB。
- 句子数量：约111,274,300句。
- 处理步骤：
  - 使用PunktSentenceTokenizer进行句子分割。
  - 修正从HTML转换为文本时的错误字符。
  - 移除重复句子。
  - 进行NFC标准化。
- 下载链接：Google Drive
完整TXT数据集 V2
- 大小：压缩后5GB，解压后约27.5GB。
- 下载链接：特定IP地址
CSV数据集 V2
- 大小：压缩后5.6GB，解压后约49GB。
- 字段：标题、摘要、分类、标签、发布时间、来源、内容。
- 分隔符：逗号。
- 引用字符：双引号。
- 引用方式：最小引用。
- 下载链接：特定IP地址
分类TXT数据集
- 大小：压缩后5GB，解压后28GB。
- 分类列表：技术、生活、娱乐、教育、科学、经济、房地产、无、法律、世界、体育、文化、社会、车辆。
- 下载链接：特定IP地址
MongoDB Dump格式
- 大小：压缩后8.9GB，解压后约76GB。
- 下载方式：请联系作者。

搜集汇总

数据集介绍

构建方式

Binhvq News Corpus数据集的构建，是从大约14.896.998篇互联网新闻中提取的。这些新闻涵盖了多个来源，包括但不限于2Sao、ANTG、ANTT等知名新闻网站，构建了一个包含标题、描述和正文等信息的全面新闻数据集。

特点

该数据集的特点在于其规模庞大，包含了丰富的新闻类别，如科技、生活、娱乐、教育、科学、经济、房产等。数据集经过基本的预处理，包括句子分割、HTML到文本的转换错误修正、去除重复句子和标准化等，以确保数据的质量和可用性。

使用方法

用户可以通过下载不同格式的数据集来使用它，包括仅标题的版本、完整的文本版本（包括标题、描述和正文）、按类别分类的文本版本以及MongoDB格式。每个版本都有相应的下载链接，用户可以根据自己的需要选择合适的格式进行下载和使用。

背景与挑战

背景概述

Binhvq News Corpus是一个庞大的新闻文本数据集，由越南工程师Vương Quốc Bình创建于2018年。该数据集主要来源于互联网上的大约14.896.998篇新闻文章，涵盖了多个新闻来源，如2Sao、ANTG、ANTT等。它包含了新闻标题、摘要和正文等详细信息，旨在为自然语言处理、文本分析和机器学习等领域的研究提供丰富的数据资源。

当前挑战

Binhvq News Corpus在构建过程中遇到的挑战主要包括数据清洗和预处理。首先，由于数据来源于多个不同的新闻网站，因此需要处理各种格式的文本，包括HTML标签的转换和错误字符的修正。其次，数据集中的重复句子和错误信息需要被去除。此外，数据集在解决领域问题如新闻分类、情感分析等方面也面临挑战，例如如何准确提取和利用新闻中的关键信息，以及如何处理大规模数据集以提高模型训练和预测的效率。

常用场景

经典使用场景

Binhvq News Corpus数据集是一份庞大的新闻文本资源，涵盖了来自越南各类媒体的文章。其经典使用场景主要包括自然语言处理中的文本分类、情感分析、信息抽取等任务，为研究越南语的语言特性提供了丰富的数据基础。

衍生相关工作

基于Binhvq News Corpus数据集，研究者已开展了一系列相关工作，包括构建越南语的预训练语言模型、开发新闻文本挖掘工具、以及进行跨语言的信息检索研究，推动了越南语自然语言处理领域的学术进步和技术发展。

数据集最近研究