dell-research-harvard/newswire
收藏数据集卡片 - NewsWire
数据集描述
数据集概述
NewsWire包含270万篇独特的公共领域美国新闻电讯文章,写作时间跨度为1878年至1977年。这些文章中的地点已进行地理编码,主题使用定制的神经主题分类进行标记,命名实体已被识别,并且个人已使用新颖的实体消歧模型消歧到维基百科。
语言
英语(en)
数据集结构
每年数据集被分为一个单独的文件(例如1952_data_clean.json)
数据实例
NewsWire数据集的一个示例: json { "year": 1880, "dates": ["Feb-23-1880"], "article": "SENATE Washington, Feb. 23.--Bayard moved that in respect of the memory of George Washington the senate adjourn ... ", "byline": "", "newspaper_metadata": [ { "lccn": "sn92053943", "newspaper_title": "the rock island argus", "newspaper_city": "rock island", "newspaper_state": " illinois " }, ... ], "antitrust": 0, "civil_rights": 0, "crime": 0, "govt_regulation": 1, "labor_movement": 0, "politics": 1, "protests": 0, "ca_topic": "Federal Government Operations", "ner_words": ["SENATE", "Washington", "Feb", "23", "Bayard", "moved", "that", "in", "respect", "of", "the", "memory", "of", "George", "Washington", "the", "senate", "adjourn", ... ], "ner_labels": ["B-ORG", "B-LOC", "O", "B-PER", "B-PER", "O", "O", "O", "O", "O", "O", "O", "O", "B-PER", "I-PER", "O", "B-ORG", "O", ...], "wire_city": "Washington", "wire_state": "district of columbia", "wire_country": "United States", "wire_coordinates": [38.89511, -77.03637], "wire_location_notes": "", "people_mentioned": [ { "wikidata_id": "Q23", "person_name": "George Washington", "person_gender": "man", "person_occupation": "politician" }, ... ], "cluster_size": 8 }
数据字段
year: 文章发表年份。dates: 文章发表日期列表,格式为mmm-DD-YYYY。byline: 文章署名(如果有)。article: 文章文本。newspaper_metadata: 刊登文章的报纸列表。每个报纸以字典列表表示,包含lccn(报纸的国会图书馆标识符)、newspaper_title(报纸名称)、newspaper_city和newspaper_state(报纸所在地)。antitrust: 二进制变量,1表示文章被分类为关于反垄断。civil_rights: 二进制变量,1表示文章被分类为关于民权。crime: 二进制变量,1表示文章被分类为关于犯罪。govt_regulation: 二进制变量,1表示文章被分类为关于政府监管。labor_movement: 二进制变量,1表示文章被分类为关于劳工运动。politics: 二进制变量,1表示文章被分类为关于政治。protests: 二进制变量,1表示文章被分类为关于抗议。ca_topic: 文章的比较议程主题预测。wire_city: 撰写文章的电讯局所在城市。wire_state: 撰写文章的电讯局所在州。wire_country: 撰写文章的电讯局所在国家。wire_coordinates: 撰写文章的电讯局所在城市的坐标。wire_location_notes: 如果电讯派遣地点不是地理位置,则包含电讯派遣地点。可以是以下之一:太平洋(二战)、盟军远征军最高司令部(二战)、北非、战争前线(一战)、战争前线(二战)或约翰逊航天中心。people_mentioned: 文章中提到的人物列表。每个人物以字典表示,包含wikidata_id(维基数据ID)、person_name(维基百科上的姓名)、person_gender(维基数据中的性别)和person_occupation(维基数据中列出的第一个职业)。cluster_size: 刊登电讯文章的报纸数量。等于newspaper_metadata的长度。
数据访问
可以使用datasets库轻松下载整个数据集:
python
from datasets import load_dataset
dataset_dict = load_dataset("dell-research-harvard/newswire")
可以指定文件下载特定文件: python from datasets import load_dataset load_dataset( "dell-research-harvard/newswire", data_files=["1929_data_clean.json", "1969_data_clean.json"] )
数据集创建
数据集创建理由
该数据集旨在为研究人员提供一个大规模、高质量的历史新闻文章语料库。这些文本提供了关于历史主题和事件的大量信息,以及哪些报纸在报道它们。该数据集对历史学家、其他社会科学家和NLP从业者等各种研究人员都很有用。
源数据
初始数据收集和规范化
数据集构建在相关论文中描述。
源语言生产者
源语言由报纸编辑、专栏作家和其他来源的人生产。
注释
注释过程
不适用
注释者
数据集不包含任何额外注释。
个人和敏感信息
数据集可能包含关于个人的信息,这些信息涵盖在新闻报道中。但我们不会公开任何关于个人的额外信息。
数据使用考虑
数据集的社会影响
该数据集提供高质量数据,可用于预训练大型语言模型,以更好地理解历史英语和历史世界知识。该数据集还可以添加到检索增强语言模型的外部数据库中,使历史信息更广泛地可访问。
偏见讨论
该数据集包含未经筛选的内容,由报纸编辑、专栏作家和其他来源组成。除了其他可能有害的内容外,语料库可能包含事实错误和新闻事件的有意歪曲。所有内容应视为个人意见,而不是当天事件的纯粹事实叙述。
附加信息
数据集策展人
Emily Silcock (Harvard), Abhishek Arora (Harvard), Luca DAmico-Wong (Harvard), Melissa Dell (Harvard)
许可信息
该数据集采用CC-BY 4.0许可
引用信息
即将提供
贡献
即将提供




