five

dell-research-harvard/newswire

收藏
Hugging Face2025-08-30 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/dell-research-harvard/newswire
下载链接
链接失效反馈
官方服务:
资源简介:
NewsWire数据集包含1878年至1977年间的270万篇美国新闻电讯文章。这些文章经过地理编码、主题分类、命名实体识别和人物消歧处理。数据集适用于文本分类、文本生成、文本检索、摘要和问答等多种NLP任务。每篇文章包含年份、日期、文章内容、报纸元数据、主题标签、命名实体、提及的人物等信息。数据集旨在为研究人员提供一个大规模、高质量的历史新闻文章语料库,适用于历史学家、社会科学家和NLP从业者。

The NewsWire Dataset contains 2.7 million American news wire articles spanning from 1878 to 1977. These articles have undergone geocoding, topic classification, named entity recognition (NER), and person disambiguation processing. The dataset is suitable for a wide range of natural language processing (NLP) tasks including text classification, text generation, text retrieval, summarization, and question answering. Each article includes information such as publication year, date, article content, newspaper metadata, topic tags, named entities, and mentioned persons. This dataset aims to provide researchers with a large-scale, high-quality corpus of historical news articles, catering to historians, social scientists, and NLP practitioners.
提供机构:
dell-research-harvard
原始信息汇总

数据集卡片 - NewsWire

数据集描述

数据集概述

NewsWire包含270万篇独特的公共领域美国新闻电讯文章,写作时间跨度为1878年至1977年。这些文章中的地点已进行地理编码,主题使用定制的神经主题分类进行标记,命名实体已被识别,并且个人已使用新颖的实体消歧模型消歧到维基百科。

语言

英语(en)

数据集结构

每年数据集被分为一个单独的文件(例如1952_data_clean.json)

数据实例

NewsWire数据集的一个示例: json { "year": 1880, "dates": ["Feb-23-1880"], "article": "SENATE Washington, Feb. 23.--Bayard moved that in respect of the memory of George Washington the senate adjourn ... ", "byline": "", "newspaper_metadata": [ { "lccn": "sn92053943", "newspaper_title": "the rock island argus", "newspaper_city": "rock island", "newspaper_state": " illinois " }, ... ], "antitrust": 0, "civil_rights": 0, "crime": 0, "govt_regulation": 1, "labor_movement": 0, "politics": 1, "protests": 0, "ca_topic": "Federal Government Operations", "ner_words": ["SENATE", "Washington", "Feb", "23", "Bayard", "moved", "that", "in", "respect", "of", "the", "memory", "of", "George", "Washington", "the", "senate", "adjourn", ... ], "ner_labels": ["B-ORG", "B-LOC", "O", "B-PER", "B-PER", "O", "O", "O", "O", "O", "O", "O", "O", "B-PER", "I-PER", "O", "B-ORG", "O", ...], "wire_city": "Washington", "wire_state": "district of columbia", "wire_country": "United States", "wire_coordinates": [38.89511, -77.03637], "wire_location_notes": "", "people_mentioned": [ { "wikidata_id": "Q23", "person_name": "George Washington", "person_gender": "man", "person_occupation": "politician" }, ... ], "cluster_size": 8 }

数据字段

  • year: 文章发表年份。
  • dates: 文章发表日期列表,格式为mmm-DD-YYYY。
  • byline: 文章署名(如果有)。
  • article: 文章文本。
  • newspaper_metadata: 刊登文章的报纸列表。每个报纸以字典列表表示,包含lccn(报纸的国会图书馆标识符)、newspaper_title(报纸名称)、newspaper_citynewspaper_state(报纸所在地)。
  • antitrust: 二进制变量,1表示文章被分类为关于反垄断。
  • civil_rights: 二进制变量,1表示文章被分类为关于民权。
  • crime: 二进制变量,1表示文章被分类为关于犯罪。
  • govt_regulation: 二进制变量,1表示文章被分类为关于政府监管。
  • labor_movement: 二进制变量,1表示文章被分类为关于劳工运动。
  • politics: 二进制变量,1表示文章被分类为关于政治。
  • protests: 二进制变量,1表示文章被分类为关于抗议。
  • ca_topic: 文章的比较议程主题预测。
  • wire_city: 撰写文章的电讯局所在城市。
  • wire_state: 撰写文章的电讯局所在州。
  • wire_country: 撰写文章的电讯局所在国家。
  • wire_coordinates: 撰写文章的电讯局所在城市的坐标。
  • wire_location_notes: 如果电讯派遣地点不是地理位置,则包含电讯派遣地点。可以是以下之一:太平洋(二战)、盟军远征军最高司令部(二战)、北非、战争前线(一战)、战争前线(二战)或约翰逊航天中心。
  • people_mentioned: 文章中提到的人物列表。每个人物以字典表示,包含wikidata_id(维基数据ID)、person_name(维基百科上的姓名)、person_gender(维基数据中的性别)和person_occupation(维基数据中列出的第一个职业)。
  • cluster_size: 刊登电讯文章的报纸数量。等于newspaper_metadata的长度。

数据访问

可以使用datasets库轻松下载整个数据集: python from datasets import load_dataset dataset_dict = load_dataset("dell-research-harvard/newswire")

可以指定文件下载特定文件: python from datasets import load_dataset load_dataset( "dell-research-harvard/newswire", data_files=["1929_data_clean.json", "1969_data_clean.json"] )

数据集创建

数据集创建理由

该数据集旨在为研究人员提供一个大规模、高质量的历史新闻文章语料库。这些文本提供了关于历史主题和事件的大量信息,以及哪些报纸在报道它们。该数据集对历史学家、其他社会科学家和NLP从业者等各种研究人员都很有用。

源数据

初始数据收集和规范化

数据集构建在相关论文中描述。

源语言生产者

源语言由报纸编辑、专栏作家和其他来源的人生产。

注释

注释过程

不适用

注释者

数据集不包含任何额外注释。

个人和敏感信息

数据集可能包含关于个人的信息,这些信息涵盖在新闻报道中。但我们不会公开任何关于个人的额外信息。

数据使用考虑

数据集的社会影响

该数据集提供高质量数据,可用于预训练大型语言模型,以更好地理解历史英语和历史世界知识。该数据集还可以添加到检索增强语言模型的外部数据库中,使历史信息更广泛地可访问。

偏见讨论

该数据集包含未经筛选的内容,由报纸编辑、专栏作家和其他来源组成。除了其他可能有害的内容外,语料库可能包含事实错误和新闻事件的有意歪曲。所有内容应视为个人意见,而不是当天事件的纯粹事实叙述。

附加信息

数据集策展人

Emily Silcock (Harvard), Abhishek Arora (Harvard), Luca DAmico-Wong (Harvard), Melissa Dell (Harvard)

许可信息

该数据集采用CC-BY 4.0许可

引用信息

即将提供

贡献

即将提供

搜集汇总
数据集介绍
main_image_url
构建方式
在历史新闻文本挖掘领域,NewsWire数据集的构建体现了对大规模历史文献的系统性整理与深度标注。该数据集汇集了1878年至1977年间270万篇美国公共领域新闻专线文章,通过自动化流程对原始文本进行清洗与结构化处理。构建过程中采用了定制化的神经主题分类模型对文章主题进行标注,并运用命名实体识别技术识别文本中的关键实体。尤为突出的是,研究团队开发了新颖的实体消歧模型,将文中提及的人物与维基百科条目进行精准关联,同时对所有地理位置进行了地理坐标编码,确保了数据的多维可检索性。
特点
NewsWire数据集以其丰富的历史跨度和精细的结构化标注而著称。该数据集覆盖了长达一个世纪的美国新闻内容,为研究社会变迁、经济动态和语言演化提供了宝贵的纵向语料。其核心特点在于深度融合了多维度元数据:每篇文章不仅包含原始文本和出版信息,还附有经过预测的对比议程主题标签、二元分类主题标识以及完整的命名实体序列标注。数据集创新性地提供了文章发稿地的地理坐标,并实现了人物指称到维基数据的实体链接,这种多层次的信息整合为跨学科研究提供了前所未有的分析粒度。
使用方法
对于希望利用历史新闻数据进行研究的学者而言,NewsWire数据集提供了便捷的访问接口。用户可通过Hugging Face的`datasets`库直接加载完整数据集或按需选择特定年份的文件。该数据集支持文本分类、文本生成、摘要提取、问答系统及信息检索等多种自然语言处理任务。研究人员可依据其丰富的结构化字段——如主题标签、地理坐标、实体信息——进行复杂的查询与过滤,从而开展历史事件分析、媒体偏见研究、社会网络构建或作为大语言模型的历史知识预训练语料。在使用时需注意数据的历史语境特性及可能存在的表述偏见。
背景与挑战
背景概述
在数字人文与计算社会科学领域,历史文本的数字化与结构化分析正成为研究历史变迁与社会动态的关键途径。NewsWire数据集由哈佛大学Dell研究团队于2024年创建,汇集了1878年至1977年间270万篇美国公共领域新闻电讯稿。该数据集的核心研究问题在于如何通过大规模、高质量的历史新闻语料,结合地理编码、神经主题分类、命名实体识别与消歧等先进技术,为历史学、社会科学及自然语言处理研究者提供一个深度结构化的百年新闻档案。其影响力不仅体现在为大型语言模型提供历史语境预训练数据,更在于为基于检索增强的模型开辟了获取历史知识的通道,从而深化对历史事件与长期社会趋势的理解。
当前挑战
NewsWire数据集旨在解决历史新闻文本的多维度分析问题,其核心挑战在于如何从非结构化的百年新闻档案中精准提取并关联时空、主题与人物等多模态信息。具体而言,领域问题的挑战包括历史语言风格的演变、主题分类的跨时代一致性以及命名实体在漫长历史跨度中的消歧难度。在构建过程中,研究团队面临原始数据质量参差不齐、地理坐标与时间信息的标准化、以及运用定制化神经模型进行大规模自动化标注时确保准确性与可靠性的技术难题。此外,数据本身可能包含的事实性错误与历史偏见,也对后续研究的客观性提出了审慎使用的警示。
常用场景
经典使用场景
在历史新闻文本分析领域,NewsWire数据集以其跨越一个世纪的美国新闻电讯文章,为研究者提供了丰富的语料资源。该数据集最经典的使用场景在于历史事件的主题建模与时空分析,学者们能够借助其精细的标注信息,如地理坐标、主题分类和实体消歧,追踪特定议题如政府监管或劳工运动在长时间序列中的演变轨迹,揭示社会变迁与媒体报道之间的动态关联。
实际应用
在实际应用层面,NewsWire数据集能够服务于数字人文项目与智能信息检索系统。例如,教育机构可利用其构建交互式历史时间线,向公众可视化展示新闻事件的时空分布;而新闻机构或内容平台则可基于其主题标签和实体链接,开发更精准的历史档案检索工具,提升用户获取特定时期背景信息的效率与深度。
衍生相关工作
围绕NewsWire数据集,已衍生出一系列聚焦于历史语言建模与社会科学计算的经典工作。这些研究通常利用其时序性与地理标注,训练专用于历史文本理解的预训练语言模型,或开发结合时空信息的主题演化分析方法。相关成果不仅推动了历史语料的计算分析范式,也为考察媒体在塑造公共记忆中的角色提供了新的方法论视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作