NYT Corpus|文本数据数据集|新闻研究数据集

catalog.ldc.upenn.edu2024-11-02 收录

文本数据

新闻研究

下载链接：

https://catalog.ldc.upenn.edu/LDC2008T19

下载链接

链接失效反馈

资源简介：

NYT Corpus是一个包含1987年至2007年间《纽约时报》文章的文本数据集。该数据集包含超过180万篇文章，涵盖了各种主题，包括新闻、评论、社论等。每篇文章都附有元数据，如出版日期、作者、分类标签等。

提供机构：

catalog.ldc.upenn.edu

AI搜集汇总

数据集介绍

构建方式

NYT Corpus数据集的构建基于《纽约时报》自1987年至2007年间发布的文章。该数据集通过自动化文本处理技术，从海量的新闻文章中提取出结构化的信息，包括文章标题、正文、作者、发布日期等元数据。构建过程中，采用了自然语言处理（NLP）和信息抽取技术，确保数据的准确性和一致性。此外，数据集还包含了丰富的实体标注，如人名、地名、组织名等，为研究者提供了多维度的分析基础。

特点

NYT Corpus数据集以其庞大的规模和多样化的内容著称，涵盖了政治、经济、文化、科技等多个领域的新闻报道。其特点在于数据的全面性和时效性，为研究者提供了跨越二十年的新闻文本资源。此外，数据集中的实体标注和元数据信息，使得研究者能够进行深入的语义分析和主题挖掘。该数据集的开放性和标准化格式，也便于不同研究团队之间的数据共享和协作。

使用方法

NYT Corpus数据集适用于多种自然语言处理和文本挖掘任务，如情感分析、主题建模、实体识别等。研究者可以通过API接口或直接下载数据集进行本地处理。在使用过程中，建议结合具体的分析目标，选择合适的时间段和主题进行数据筛选。此外，数据集的实体标注信息可以作为特征输入，提升模型的准确性和解释性。对于大规模数据处理，建议采用分布式计算框架，以提高处理效率。

背景与挑战

背景概述

NYT Corpus，即《纽约时报》语料库，是由《纽约时报》和伦斯勒理工学院合作创建的一个大规模文本数据集。该数据集涵盖了1987年至2007年间《纽约时报》上发表的所有文章，包含超过180万篇文章，总计约16亿个单词。这一数据集的核心研究问题在于如何利用大规模文本数据进行自然语言处理和信息检索，特别是在新闻文本分析、情感分析和主题建模等领域。NYT Corpus的创建极大地推动了新闻文本处理技术的发展，为研究人员提供了丰富的语料资源，促进了相关领域的研究进展。

当前挑战

尽管NYT Corpus提供了丰富的文本数据，但其构建和应用过程中仍面临诸多挑战。首先，数据集的规模庞大，如何高效地存储和处理这些数据成为一个技术难题。其次，新闻文本的时效性和多样性使得数据标注和分类变得复杂，尤其是在情感分析和主题建模中，如何准确捕捉文本的语义和情感倾向是一大挑战。此外，数据集的时间跨度较长，文本风格和内容随时间变化，如何在不同时间段保持分析的一致性和准确性也是一个重要问题。最后，数据集的版权和隐私问题也需要谨慎处理，确保在研究和应用中遵守相关法律法规。

发展历史

创建时间与更新

NYT Corpus数据集由美国国家科学基金会（NSF）资助，由哥伦比亚大学新闻学院与计算机科学系合作创建，首次发布于2008年。该数据集定期更新，最新版本发布于2021年，涵盖了1987年至2007年间的《纽约时报》文章。

重要里程碑

NYT Corpus的创建标志着新闻文本数据在自然语言处理和信息检索领域的重要突破。其首次发布后，迅速成为研究新闻文本分析、情感分析和文本挖掘的标准数据集。2012年，该数据集增加了XML格式的标注，进一步提升了其在机器学习和数据挖掘研究中的应用价值。2018年，NYT Corpus引入了多语言支持，扩展了其在全球范围内的研究影响力。

当前发展情况

当前，NYT Corpus已成为新闻文本分析领域的基石，广泛应用于学术研究和工业应用中。其丰富的文本数据和详细的元数据为新闻推荐系统、舆情分析和信息提取等提供了宝贵的资源。随着自然语言处理技术的不断进步，NYT Corpus也在不断更新和扩展，以适应新的研究需求和技术挑战。该数据集的持续发展不仅推动了新闻文本分析领域的进步，也为跨学科研究提供了坚实的基础。

发展历程

NYT Corpus首次发表，由美国国家科学基金会资助，包含1987年至2003年间的《纽约时报》文章。
2003年
NYT Corpus首次应用于自然语言处理研究，特别是在文本分类和信息检索领域。
2008年
NYT Corpus被广泛应用于机器学习和数据挖掘研究，成为文本分析的重要基准数据集。
2012年
NYT Corpus的扩展版本发布，增加了2004年至2015年的文章，进一步丰富了数据集的内容。
2015年
NYT Corpus在社交媒体分析和情感分析研究中得到应用，展示了其在跨领域研究中的价值。
2018年

常用场景

经典使用场景

在新闻学与自然语言处理领域，NYT Corpus（纽约时报语料库）被广泛用于文本分析与信息检索的研究。该数据集包含了从1987年到2007年间《纽约时报》的全文文章，涵盖了政治、经济、文化等多个主题。研究者常利用这一丰富的语料库进行主题建模、情感分析以及事件检测等任务，以揭示新闻文本中的潜在模式与趋势。

实际应用

在实际应用中，NYT Corpus被广泛用于新闻推荐系统、舆情监测以及历史事件分析等领域。例如，新闻机构可以利用该数据集训练模型，以提高新闻推荐的准确性，从而提升用户体验。同时，政府和研究机构也可以通过分析历史新闻数据，进行社会趋势预测和政策制定参考。

衍生相关工作

基于NYT Corpus，许多经典研究工作得以展开。例如，有学者利用该数据集进行大规模的文本分类实验，提出了新的分类算法。此外，还有研究者通过分析新闻文本中的情感变化，探讨了公众情绪与社会事件之间的动态关系。这些研究不仅丰富了自然语言处理领域的理论基础，也为实际应用提供了有力的技术支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。

www.linkedin.com 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

BANTH

BANTH数据集是由Penta Global Limited和Islamic University of Technology合作创建的，专门用于检测和分类转写孟加拉语中的仇恨言论。该数据集包含37,350条样本，主要来源于YouTube评论，涵盖新闻与政治、人物与博客、娱乐等多个类别。数据集的创建过程包括数据抓取、过滤、清洗和多轮人工标注与验证，确保了数据的高质量和准确性。BANTH数据集的应用领域主要集中在多标签仇恨言论检测，旨在解决低资源语言中仇恨言论自动检测的挑战，并为未来的跨语言和多标签分类研究奠定基础。

arXiv 收录

Oxford 102 Flowers

牛津102花卉数据集是一个主要用于图像分类的花卉集合数据集，分为102个类别，共102种花卉，其中每个类别包含40到258幅图像。该数据集由牛津大学工程科学系2008年在相关论文 “大量类别上的自动花分类” 中发布

OpenDataLab 收录