five

Quotebank

收藏
arXiv2022-07-08 更新2024-06-21 收录
下载链接:
https://quotebank.dlab.tools
下载链接
链接失效反馈
官方服务:
资源简介:
Quotebank是由洛桑联邦理工学院创建的一个包含2.35亿条独特、发言人归属的引言数据集。该数据集从2008年9月至2020年4月间发布的1.96亿篇英语新闻文章中提取,其中1.27亿篇包含引言。数据集的创建利用了基于BERT的架构Quobert,并结合了Quootstrap技术进行数据提取。Quotebank不仅为新闻分析提供了丰富的资源,还支持社会科学研究,如通过引言进行观点挖掘。此外,数据集通过与Wikidata的链接,增强了查询能力,支持基于发言人属性的分面搜索,旨在解决新闻信息传播和源头的确定问题。

Quotebank is a dataset of 235 million unique, speaker-attributed quotations created by École Polytechnique Fédérale de Lausanne. It is extracted from 196 million English news articles published between September 2008 and April 2020, among which 127 million articles contain quotations. The construction of Quotebank leverages a BERT-based architecture named Quobert, combined with the Quootstrap technique for data extraction. Quotebank not only provides a rich resource for news analysis, but also supports social science research such as opinion mining via quotations. Furthermore, by linking with Wikidata, the dataset enhances query capabilities and supports faceted search based on speaker attributes, aiming to address the issues of news information dissemination and the determination of its sources.
提供机构:
洛桑联邦理工学院
创建时间:
2022-07-08
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作