QuoteR

Name: QuoteR
Creator: 清华大学人工智能研究院
Published: 2022-03-14 23:31:07
License: 暂无描述

arXiv2022-03-14 更新2024-06-21 收录

下载链接：

https://github.com/thunlp/QuoteR

下载链接

链接失效反馈

官方服务：

资源简介：

QuoteR是由清华大学人工智能研究院构建的一个大型开放引用推荐数据集，旨在帮助写作者高效找到合适的引用。该数据集包含三个部分：英语、标准中文和古典中文，总计13,550条引用，分别来自Wikiquote、Juzimi和Gushiwenwang等资源。数据集的创建过程涉及从多个高质量语料库中提取引用及其上下文，确保数据的多样性和实用性。QuoteR主要用于解决引用推荐任务中的挑战，如提高推荐准确性和效率，适用于自然语言处理和机器学习研究。

QuoteR is a large-scale open citation recommendation dataset developed by the Institute of Artificial Intelligence at Tsinghua University, aiming to assist writers in efficiently locating suitable citations. It consists of three parts: English, standard Chinese, and classical Chinese, with a total of 13,550 citations sourced from resources including Wikiquote, Juzimi, and Gushiwenwang. The development of the dataset involves extracting citations and their contextual information from multiple high-quality corpora to ensure data diversity and practicality. QuoteR is primarily intended to address challenges in citation recommendation tasks, such as enhancing recommendation accuracy and efficiency, and is applicable to research in natural language processing and machine learning.

提供机构：

清华大学人工智能研究院

创建时间：

2022-02-26

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，引文推荐任务长期缺乏公开且标准化的评估基准。QuoteR数据集的构建过程体现了严谨的学术规范，其构建方法主要分为三个步骤：首先，从权威的公开语料库中收集引文，英文部分源自Wikiquote，标准中文部分来自句迷网，古典中文部分则整合了古诗文网与句迷网的资源。其次，利用大规模文本语料库（如Project Gutenberg、BookCorpus及OpenWebText等）自动提取引文出现的真实上下文，通过句子级搜索策略以捕捉部分引用的复杂情况，并设定上下文窗口为前后40词（英文）或50字符（中文）。最后，经过去重、频次过滤及平衡采样（如限制每条引文的最大上下文数量为200），形成包含训练、验证与测试集的标准化数据集，并确保部分引文在训练集中不出现以评估零样本性能。

特点

QuoteR数据集在引文推荐研究领域具有多项显著特征。其规模宏大，涵盖英语、标准汉语及古典汉语三个独立部分，其中英文部分包含6,108条引文及126,713个上下文对，任何一部分的规模均超越以往未公开的数据集。数据集构建基于高质量的真实语料，如电子书与网页文本，确保了上下文与引文关联的自然性与多样性。此外，数据集经过精心划分，包含100条零样本引文，为模型在未见引文上的泛化能力评估提供了独特场景。数据分布呈现长尾特性，既反映了真实世界中引文使用频次的差异，也为研究不平衡学习问题提供了实际案例。

使用方法

QuoteR数据集为引文推荐模型的训练与评估提供了标准化平台。研究人员可将数据集按既定划分用于模型训练、验证与测试。在模型设计上，可借鉴论文中提出的方法，利用预训练语言模型（如BERT）分别编码查询上下文与候选引文，并通过相似度计算进行排序。评估时，应采用论文中定义的多种指标，包括平均倒数排名（MRR）、归一化折损累积增益（NDCG@5）及Recall@K等，以全面衡量模型性能。数据集支持仅使用左侧上下文的实用场景评估，同时也鼓励研究者探索如何提升模型在低频及零样本引文上的推荐效果。所有数据与代码均已公开，确保了研究的可复现性。

背景与挑战

背景概述

在自然语言处理领域，引文推荐任务旨在辅助写作过程中自动匹配契合上下文的经典语句，以提升文本的优雅性与说服力。QuoteR数据集由清华大学研究团队于2022年构建，作为首个大规模开源的引文推荐基准，涵盖英语、现代汉语与文言文三种语言变体，其规模均超越以往非公开数据集。该数据集通过从高质量语料库中提取真实上下文与引文配对，解决了该领域长期缺乏标准化评估资源的问题，为深入探究语言理解、语义匹配等核心研究议题提供了重要实验基础。

当前挑战

引文推荐任务面临双重挑战：其一，在领域问题层面，引文通常以隐喻等修辞手法隐含表达意义，且用词与现代日常写作存在差异，导致基于关键词匹配的传统方法难以捕捉深层语义关联；其二，在数据集构建过程中，需从海量异构文本中精准提取引文及其上下文，并处理多语言引文的简练性导致的表征学习困难，同时确保数据质量与规模间的平衡。此外，文言文引文与现代汉语的语义差异进一步增加了模型跨语言迁移的复杂性。

常用场景

经典使用场景

在自然语言处理领域，QuoteR数据集为引文推荐任务提供了标准化评估平台，其经典使用场景聚焦于提升写作过程中的引文匹配精度。通过构建包含英语、标准中文和古典中文的大规模语料，该数据集支持模型在多样化语言环境中进行训练与验证，尤其适用于研究引文与上下文之间的语义关联性。研究人员利用QuoteR能够系统评估不同神经网络架构在引文推荐任务中的表现，从而推动语义理解与文本生成技术的交叉发展。

衍生相关工作

基于QuoteR数据集衍生的经典研究包括语义增强的BERT变体模型，该模型通过融合义原知识显著提升了引文表征质量。后续工作进一步探索了跨语言引文推荐框架，将多语言预训练技术与对抗学习相结合。同时，该数据集启发了对话场景下的动态引文推荐研究，以及基于元学习的零样本引文匹配方法，这些成果持续推动着内容推荐系统向更深层次的语义理解方向发展。

数据集最近研究