Binhvq News Corpus
收藏github2024-05-03 更新2024-05-31 收录
下载链接:
https://github.com/binhvq/news-corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从互联网上约14,896,998篇文章中提取的越南语新闻语料库,包含了多个新闻来源的文章。数据集提供了不同格式的文件,包括标题、全文和分类文本等,并提供了详细的下载链接。
This dataset is a Vietnamese news corpus extracted from approximately 14,896,998 articles on the internet, encompassing articles from multiple news sources. The dataset offers files in various formats, including titles, full texts, and categorized texts, along with detailed download links.
创建时间:
2018-12-13
原始信息汇总
Binhvq News Corpus 概述
基本信息
- 数据来源:从互联网上约14,896,998篇文章中提取,涵盖了多个新闻来源。
数据集细分
-
仅标题数据集
- 大小:压缩后219MB,解压后669MB。
- 数量:包含10,787,976个标题。
- 下载链接:Google Drive
- 样本:GitHub
-
完整文本数据集 V1
- 大小:压缩后3.7GB,解压后约18.6GB。
- 句子数量:约111,274,300句。
- 处理步骤:
- 使用PunktSentenceTokenizer进行句子分割。
- 修正从HTML转换为文本时的错误字符。
- 移除重复句子。
- 标准化为NFC格式。
- 下载链接:Google Drive
-
MongoDB Dump格式
- 大小:压缩后8.9GB,解压后约76GB。
- 更新日期:2021年5月21日,包含2000万篇文章。
- 下载链接:Google Drive
数据集示例
- 示例内容:包括来源、标题、摘要、正文、ID、发布时间、标签、关键词和分类等。
- 示例链接:GitHub
Facebook评论语料库
- 描述:从Facebook的公开页面和群组中爬取的评论,最近爬取时间为2020年10月。
- 总记录数:1000万条。
- 格式:使用Elasticsearch dump导出的Json Lines格式。
- 压缩大小:399MB,解压后3.9GB。
- 下载链接:Google Drive
搜集汇总
数据集介绍

构建方式
Binhvq News Corpus 数据集通过从互联网上提取约14,896,998篇新闻文章构建而成,涵盖了来自多个越南新闻媒体的报道。数据集的构建过程中,采用了基本的预处理步骤,如使用PunktSentenceTokenizer进行句子分割,修正从HTML转换为文本时出现的字符错误,去除重复句子,并进行NFC标准化处理。此外,数据集还包含了新闻的标题、描述和正文内容,确保了数据的完整性和多样性。
特点
Binhvq News Corpus 数据集的显著特点在于其庞大的规模和多样性,涵盖了从多个新闻来源获取的超过1400万篇文章。数据集不仅包含了新闻的标题,还提供了详细的描述和正文内容,适合用于自然语言处理、文本分析和机器学习任务。此外,数据集经过初步处理,去除了重复内容,并进行了字符标准化,确保了数据的质量和一致性。
使用方法
Binhvq News Corpus 数据集可用于多种自然语言处理任务,如文本分类、情感分析、主题建模和信息检索等。用户可以通过下载压缩文件并解压后,直接使用数据集进行模型训练和测试。数据集提供了多种格式,包括纯文本和MongoDB Dump格式,方便用户根据需求选择合适的格式进行处理。此外,数据集还提供了样本文件,用户可以先通过样本文件了解数据结构和内容,再决定是否使用完整数据集。
背景与挑战
背景概述
Binhvq News Corpus是由越南研究人员Vương Quốc Bình创建的一个大规模新闻语料库,隶属于越南工业大学。该数据集从约14,896,998篇网络新闻中提取,涵盖了多个越南主流新闻媒体,如2Sao、ANTG、BizLIVE等。该数据集的创建旨在为自然语言处理、文本分析和机器学习等领域提供丰富的资源,尤其在越南语处理方面具有重要意义。通过提供新闻标题、描述和正文的全文数据,Binhvq News Corpus为研究人员提供了深入研究越南语新闻文本的机会,推动了相关领域的技术进步。
当前挑战
Binhvq News Corpus在构建过程中面临了多个挑战。首先,数据集的规模庞大,涉及超过1400万篇新闻文章,这要求在数据采集和处理过程中具备高效的技术手段。其次,新闻文本的多样性和复杂性使得数据清洗和标准化成为一项艰巨任务,尤其是在处理HTML到文本的转换、句子分割和重复内容检测等方面。此外,越南语的特殊语法结构和词汇多样性也为文本分析和模型训练带来了额外的复杂性。最后,数据集的更新和维护也是一个持续的挑战,确保数据的质量和时效性对于研究的有效性至关重要。
常用场景
经典使用场景
Binhvq News Corpus 数据集的经典使用场景主要集中在自然语言处理(NLP)领域,尤其是在文本分类、情感分析和信息检索等任务中。由于该数据集包含了大量来自不同新闻来源的文章,研究者可以利用这些数据进行多标签分类,识别新闻文章的主题类别,或者进行情感分析以判断文章的情感倾向。此外,该数据集还可用于构建大规模的语料库,支持语言模型训练和文本生成等高级NLP任务。
实际应用
在实际应用中,Binhvq News Corpus 数据集可广泛应用于新闻推荐系统、舆情监控和智能客服等领域。例如,新闻推荐系统可以利用该数据集进行用户兴趣建模,从而提供个性化的新闻推荐服务。舆情监控系统则可以通过分析新闻文章的情感倾向,实时监控社会舆论动态。此外,智能客服系统也可以利用该数据集进行语义理解,提升与用户的交互体验。
衍生相关工作
Binhvq News Corpus 数据集的发布激发了大量相关研究工作。例如,基于该数据集的文本分类模型在多个公开数据集上取得了优异的性能,推动了文本分类技术的发展。此外,该数据集还被用于开发情感分析工具,帮助研究者更好地理解新闻文章的情感倾向。在信息检索领域,基于该数据集的语料库也被广泛应用于构建高效的检索系统,提升了信息检索的准确性和效率。
以上内容由遇见数据集搜集并总结生成



