QuoteR, Gandhi, Quotus
收藏arXiv2025-02-18 更新2025-02-19 收录
下载链接:
https://github.com/sayantan11995/Context_based_Quote_Extraction
下载链接
链接失效反馈官方服务:
资源简介:
本文介绍了三个数据集:QuoteR、Gandhi和Quotus。QuoteR数据集包含了从小说中提取的文学引用;Gandhi数据集以圣雄甘地的引用为中心;Quotus数据集则包括政治演讲中的引用。这些数据集涵盖了不同的体裁,并提供了大量的引用、上下文和源段落,以供研究之用。
This paper introduces three datasets: QuoteR, Gandhi, and Quotus. The QuoteR dataset contains literary citations extracted from novels; the Gandhi dataset centers on citations from Mahatma Gandhi; the Quotus dataset encompasses citations from political speeches. These datasets cover diverse genres and provide a substantial volume of citations, their associated contexts and source passages for research purposes.
提供机构:
印度理工学院卡哈拉格普尔
创建时间:
2025-02-18
原始信息汇总
数据集概述
数据集名称
- Context_based_Quote_Extraction
数据集结构
Paragraph Ranking
- 数据集结构:
[[ctx_id, [pos_doc_id], [neg_doc_id * (n-1), pos_doc_id]], ..] => dataset_n_neg.pkl - 标签结构:
{ctx_id1: [pos_doc_id1, pos_doc_id2, pos_doc_id3], ctx_id2: [pos_doc_id1, pos_doc_id2], ..} => labels_n_neg.pkl - 文本映射:
ctxid_to_text: {ctx_id1: ctx1, ctx_id2: ctx2, ..}docid_to_text: {doc_id1: doc1, doc_id2: doc2, ..}
Full system eval data
- 数据集结构:
full_system_data_<book>: {ctxid: [quote_id, para_id]}
搜集汇总
数据集介绍

构建方式
QuoteR, Gandhi, and Quotus数据集的构建旨在解决从长文档中提取最有相关性的引言问题。首先,这些数据集通过从现有的引言推荐资源中收集引言并适应其上下文,构建了三个基于上下文的引言提取数据集。具体来说,QuoteR数据集主要包含文学引言,Quotus数据集包含政治演讲引言,而Gandhi数据集专注于圣雄甘地的引言。为了构建这些数据集,研究团队使用了Project Gutenberg语料库、Gadhipedia搜索引擎和Quoting POTUS网站等资源来收集引言、上下文和源段落。此外,他们还利用了句向量转换器将文本编码为嵌入,并存储在向量存储中,以便进行高效的搜索。最后,他们通过结合多种模型和任务,如基于SpanBERT-CRF的序列标记和基于SpanBERT的上下文感知跨度预测,构建了一个多任务学习框架RA-MTR,以进一步提高引言预测的性能。
使用方法
使用QuoteR, Gandhi, and Quotus数据集的方法如下:1. 数据准备:首先,需要将数据集下载并解压缩到本地计算机上。然后,需要将数据集加载到内存中,并进行必要的预处理,例如分词、词性标注等。2. 模型训练:可以使用多种机器学习模型,如深度学习模型或传统机器学习模型,来训练引言提取任务。具体来说,可以使用RA-MTR框架来训练模型,该框架包括一个基于向量存储的检索器和两个基于SpanBERT的模块,一个用于跨度预测,另一个用于可引用性检测。3. 模型评估:在模型训练完成后,需要使用测试集来评估模型在引言提取任务上的性能。可以使用多种评估指标,如精确率、召回率和F1分数等。4. 应用:最后,可以使用训练好的模型来提取长文本中的相关引言,以便在新闻文章、博客和摘要等场景中加强表达的观点。
背景与挑战
背景概述
名言警句在新闻文章、散文和日常对话中经常被用来传达思想。为了更好地从长文本中提取最相关的名言警句,Sayantan Adak和Animesh Mukherjee在印度理工学院加尔各答分校的研究中,提出了一个基于上下文的名言警句提取系统。该系统将名言警句提取问题作为开放领域的问答问题,并利用向量存储检索器和多任务阅读器来解决问题。研究人员创建了三个上下文名言警句提取数据集,并引入了RA-MTR框架,该框架在BoW F1分数方面取得了最先进的性能,提高了5.08%。该数据集的创建填补了当前领域内缺乏长文本名言警句提取数据集的空白,并推动了相关领域的研究。
当前挑战
名言警句提取面临的主要挑战包括:1) 识别长文本中的名言警句;2) 在给定的上下文中确定名言警句的相关性和可引用性;3) 构建一个能够从长文本中提取名言警句的系统,该系统能够理解复杂的语言细微差别并处理开放领域的文本。此外,数据集的构建过程中也遇到了挑战,例如如何有效地从大量文本中收集和标注名言警句,以及如何构建一个能够处理不同类型文本的通用模型。
常用场景
经典使用场景
QuoteR, Gandhi, and Quotus数据集主要用于提取长文本中最相关的引言。这些数据集通过使用基于向量存储的检索器和多任务阅读器来处理引言提取问题,从而在开放领域问答框架下实现了引言提取。这种方法的经典使用场景包括在撰写新闻文章、博客和摘要时,从大量文本中自动识别和提取最具相关性和可引用性的引言。
解决学术问题
QuoteR, Gandhi, and Quotus数据集解决了从长文本中提取最相关引言的挑战。这些数据集通过使用基于上下文的引言提取系统,能够从包含数百个段落的完整源文档中提取引言,从而为新闻文章、博客和摘要的撰写提供了强有力的支持。此外,这些数据集还提供了不同领域的引言,例如文学作品、政治演讲和甘地引言,使得引言提取系统能够在不同领域中取得更好的性能。
实际应用
QuoteR, Gandhi, and Quotus数据集在实际应用场景中具有广泛的应用。这些数据集可以用于自动提取新闻文章、博客和摘要中最具相关性和可引用性的引言,从而为新闻编辑、博客作者和摘要撰写者提供了极大的便利。此外,这些数据集还可以用于开发智能引言推荐系统,为用户提供个性化的引言推荐,从而提高用户体验。例如,通过集成这些数据集的系统可以与公开的历史百科全书(如Gandhipedia)相结合,为用户提供实时的引言提取服务。
数据集最近研究
最新研究方向
QuoteR, Gandhi, and Quotus数据集在语境感知引用提取领域的最新研究方向主要集中在利用检索增强的多任务阅读器(RA-MTR)框架。该框架通过向量存储检索器进行初步检索,然后应用基于Llama-3的重新排序器,并采用一个多任务框架,该框架利用了两个专门为引用提取场景设计的训练任务。通过这种方法,研究者在BoW F1-score方面取得了高达5.08%的最大改进。此外,研究还引入了三个不同的数据集,包括QuoteR(主要包含文学引用)、Quotus(包含政治演讲中的引用)以及甘地引用数据集,这些数据集涵盖了多种不同的类型,并已被公开以促进该领域的研究。
相关研究论文
- 1RA-MTR: A Retrieval Augmented Multi-Task Reader based Approach for Inspirational Quote Extraction from Long Documents印度理工学院卡哈拉格普尔 · 2025年
以上内容由遇见数据集搜集并总结生成



