QUOTEGRAPH
收藏arXiv2025-07-23 更新2025-07-25 收录
下载链接:
https://zenodo.org/records/16275215
下载链接
链接失效反馈官方服务:
资源简介:
QUOTEGRAPH是一个从2008年至2020年间发表在英语新闻文章中的发言人归属引语中提取的大型社会网络。它包含528,000个独特的节点和8.63百万条有向边,这些边指向说话者提到的个人。节点与他们在Wikidata中的相应项目链接,从而为数据集提供了详细的传记实体信息,包括国籍、性别和政治隶属关系。QUOTEGRAPH是从QUOTEBANK中提取的,这是一个包含引语的庞大语料库,因此QUOTEGRAPH中的关系还包含了它们所处的上下文信息。QUOTEGRAPH的每个网络构建流程都是语言无关的,这使其能够基于非英语新闻语料库构建类似的数据库。QUOTEGRAPH被认为是计算社会科学的一个有吸引力的资源,它补充了在线社交网络,有可能对公众人物的行为以及这些行为如何在新闻中被捕捉到提供新的见解。
QUOTEGRAPH is a large-scale social network extracted from speaker-attributed quotations published in English news articles between 2008 and 2020. It contains 528,000 unique nodes and 8.63 million directed edges that point to individuals mentioned by speakers. Nodes are linked to their corresponding entries in Wikidata, providing the dataset with detailed biographical entity information including nationality, gender, and political affiliation. QUOTEGRAPH is extracted from QUOTEBANK, a massive corpus of quotations, so the relationships within QUOTEGRAPH also include the contextual information of their original occurrences. The network construction pipeline of QUOTEGRAPH is language-agnostic, enabling the construction of similar databases based on non-English news corpora. QUOTEGRAPH is regarded as an attractive resource for computational social science, complementing online social networks, and holds the potential to offer new insights into the behaviors of public figures and how such behaviors are captured in news reporting.
提供机构:
University of Zagreb, EPFL, University of Konstanz, Aarhus University
创建时间:
2025-07-23
搜集汇总
数据集介绍

构建方式
QUOTEGRAPH数据集通过从2008年至2020年英文新闻文章中提取的发言人引用构建而成,形成了一个包含52.8万个独特节点和863万条有向边的大规模社交网络。构建过程中,首先从QUOTEBANK语料库中提取发言人及其在引用中提到的个人,然后通过轻量级启发式方法将这些实体与Wikidata中的项目进行链接,赋予数据集详细的生物实体信息。整个构建流程语言无关,适用于非英语新闻语料库。
特点
QUOTEGRAPH数据集的特点在于其规模庞大且信息丰富,节点代表公共话语中的参与者,边代表引用关系。每个节点均链接至Wikidata,提供了国籍、性别、政治派别等详细信息。此外,数据集还包含引用出现的上下文信息,使得关系更加丰富。网络结构呈现出典型的现实世界社交网络特性,如高度连接的组件、正度相关性和高聚类系数。
使用方法
QUOTEGRAPH数据集适用于计算社会科学研究,可用于研究政治极化、社区发现以及基于传记特征的偏见分析。研究人员可以利用其与Wikidata的链接,进行大规模的特征分析。此外,数据集的构建方法语言无关,可扩展至其他语言的新闻语料库,为跨语言研究提供了可能。
背景与挑战
背景概述
QUOTEGRAPH是由Marko Čuljak、Robert West、Andreas Spitz和Akhil Arora等研究人员于2025年提出的一种新型大规模社交网络数据集,其数据源自2008年至2020年间英文新闻文章中带有说话者属性的引用内容。该数据集包含52.8万个独特节点和863万条有向边,每条边从说话者指向其提及的人物。QUOTEGRAPH的节点与Wikidata中的对应条目相链接,从而赋予了数据集详细的传记实体信息,如国籍、性别和政治派别等。QUOTEGRAPH基于QUOTEBANK这一大规模引用语料库构建,其关系还进一步丰富了引用上下文的信息。该数据集的构建流程具有语言无关性,使得基于非英语新闻语料库构建类似数据集成为可能。QUOTEGRAPH为计算社会科学研究者提供了一个宝贵的资源,能够揭示公众人物的行为特征及其在新闻中的呈现方式。
当前挑战
QUOTEGRAPH在构建和应用过程中面临多重挑战。首先,在领域问题方面,该数据集旨在解决从新闻引用中提取隐含社交网络的难题,但新闻文本中的噪声、异构性以及大规模数据处理需求使得准确提取和链接说话者与提及人物变得极具挑战性。其次,在构建过程中,研究人员需应对QUOTEBANK中短引用的普遍性、同一引用的多种变体以及错误说话者归属等问题。此外,实体消歧任务在如此大规模的数据集上运行,传统方法在计算资源上的不可行性迫使研究者采用轻量级启发式方法。最后,数据集中存在的性别偏差(如男性在新闻覆盖中占比过高)以及政治派别等属性的不一致性,也为后续分析带来了复杂性。这些挑战不仅考验了数据集的构建技术,也为未来研究提供了改进方向。
常用场景
经典使用场景
QUOTEGRAPH数据集在计算社会科学领域中被广泛用于研究公共人物之间的社交网络动态。通过分析新闻引语中的提及关系,研究者能够揭示政治人物、艺术家和运动员等公众人物之间的互动模式。该数据集特别适用于探索名人社交网络的结构特性,如节点中心性、社区发现以及网络演化的时间动态。
实际应用
在实际应用中,QUOTEGRAPH为新闻媒体分析、政治传播研究和公共舆情监测提供了有力工具。例如,媒体机构可以利用该数据集追踪特定政治人物在新闻中的提及频率及其社交网络变化,从而评估其公众影响力。此外,政府部门和非营利组织可通过分析网络中的社区结构,识别潜在的跨党派合作或舆论极化现象。
衍生相关工作
QUOTEGRAPH的衍生研究包括但不限于政治言论分析、性别偏差量化以及跨语言社交网络构建。例如,Külz等人利用该数据集分析了美国政治人物在2016年大选期间言论的负面情绪变化。此外,Hu等人研究了新闻中非客观引语的增加趋势,揭示了媒体报道中客观性的下降。这些研究不仅验证了数据集的实用性,还推动了计算社会科学方法在新闻和舆论分析中的创新应用。
以上内容由遇见数据集搜集并总结生成



