ConQRet
收藏arXiv2024-12-07 更新2024-12-10 收录
下载链接:
https://github.com/emory-irlab/conqret-rag
下载链接
链接失效反馈官方服务:
资源简介:
ConQRet是一个用于增强检索论证的新基准数据集,由埃默里大学计算机科学系创建。该数据集包含了关于争议性话题的长篇复杂人类撰写的论证,基于ProCon.org网站上的专家生成论证,并结合了从公共网页中检索到的真实证据。数据集的构建过程包括从ProCon.org页面抓取数据和从网络中检索证据文本。ConQRet旨在解决计算论证中检索增强论证的评估问题,特别是在处理复杂和现实场景中的论证质量评估。
ConQRet is a novel benchmark dataset for retrieval-augmented argumentation, developed by the Department of Computer Science at Emory University. This dataset comprises long-form, complex human-written arguments on controversial topics, which are grounded in expert-generated arguments sourced from ProCon.org, and integrates real-world evidence retrieved from public web pages. The construction of ConQRet involves scraping data from ProCon.org pages and retrieving evidence texts from the public internet. ConQRet aims to address the evaluation challenge of retrieval-augmented argumentation in the field of computational argumentation, specifically for assessing argument quality in complex, real-world scenarios.
提供机构:
埃默里大学计算机科学系
创建时间:
2024-12-07
原始信息汇总
ConQRet: Controversial Questions for Argumentation and Retrieval
概述
ConQRet 是一个用于检索增强论证(RAG)和计算论证研究的基准数据集。该数据集包含流行的争议性查询,以及从公开网络上检索和抓取的证据文档,以及模型生成的论证。
应用
- 检索增强生成
- 评估独立检索系统
- 评估RAG系统
统计数据
| 统计项 | 数值 |
|---|---|
| 总主题数 | 98 |
| 每个主题的平均文档数 | 133 |
| 每个主题的平均相关文档数 | 66 |
| 每个立场的平均文档数 | 33 |
| 总检索和抓取的文档数 | 6500 |
获取数据
数据可以从以下链接下载: Google Drive链接
解压密码:SaglyanchaVichaarVasudhaivaKutumbakam01293872
引用
bibtex @misc{dhole2024conqretbenchmarkingfinegrainedevaluation, title={ConQRet: Benchmarking Fine-Grained Evaluation of Retrieval Augmented Argumentation with LLM Judges}, author={Kaustubh D. Dhole and Kai Shu and Eugene Agichtein}, year={2024}, eprint={2412.05206}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.05206}, }
搜集汇总
数据集介绍

构建方式
ConQRet数据集通过从ProCon.org网站上抓取人类撰写的关于争议性话题的长篇复杂论点,并结合从公共网页中检索到的真实证据来构建。具体而言,数据集的构建包括两个主要步骤:首先,使用Python脚本自动化抓取ProCon.org网站上的辩论页面,提取包含论点和相关来源的HTML链接;其次,对于每个论点,通过Google或Bing搜索引擎检索其引用的公共网页内容,确保论点基于真实世界的证据。这一过程确保了数据集中的论点具有高度的真实性和复杂性,能够全面评估检索增强论证(RAArg)系统的有效性。
特点
ConQRet数据集的主要特点在于其论点的长篇复杂性和基于真实世界证据的充实地基。与现有的论证数据集相比,ConQRet不仅包含了更长的论点,还确保了这些论点与真实世界的网页内容紧密关联,从而能够更全面地评估检索增强生成(RAG)系统的性能。此外,数据集中的论点涵盖了多样化的争议性话题,如堕胎禁令和疫苗接种,使得评估更具广泛性和代表性。
使用方法
ConQRet数据集主要用于评估和改进检索增强论证(RAArg)系统。研究者可以利用该数据集进行多种实验,包括但不限于:评估不同检索算法在检索相关证据文档方面的有效性;测试生成模型在利用检索到的证据生成高质量论点时的表现;以及通过多维度LLM评判(LLM Judges)对生成的论点进行细粒度评估,以提高系统的可解释性和准确性。数据集的开放使用有助于推动计算论证领域的快速发展,并为其他复杂的检索增强生成任务提供参考。
背景与挑战
背景概述
ConQRet数据集由Emory大学的Kaustubh D. Dhole、Kai Shu和Eugene Agichtein等研究人员于近期创建,旨在解决计算论证领域中检索增强论证(RAArg)的细粒度评估挑战。在当今高度分化的社会环境中,计算论证在生成争议性话题(如堕胎禁令和疫苗接种)的答案或摘要方面变得愈发重要。RAArg通过利用现实世界的证据,提供高质量、基于实证的论证,但对其进行评估仍面临挑战,因为复杂、冗长的答案在复杂话题上的人工评估成本高且困难。ConQRet数据集包含长且复杂的由人类撰写的关于争议话题的论证,基于真实世界的网站,允许对检索效果、论证质量和基于实证的论证进行详尽评估。
当前挑战
ConQRet数据集面临的挑战主要集中在两个方面:一是解决领域问题,即如何有效评估检索增强论证的质量和效果;二是构建过程中遇到的挑战,包括如何处理长且复杂的论证、如何确保检索到的证据的真实性和相关性,以及如何在没有大规模人工标注的情况下进行自动化评估。此外,数据集还需要应对论证生成中的偏见和误导性信息,确保评估的公正性和准确性。
常用场景
经典使用场景
ConQRet数据集在计算论证领域中被广泛用于评估检索增强论证(RAArg)的质量。其经典使用场景包括通过大型语言模型(LLM)对复杂、长篇的论证进行细粒度评估,以替代传统的人工评估方法。该数据集通过提供基于真实世界网站的长篇复杂论证,使得研究者能够全面评估检索效果、论证质量和证据基础性。
解决学术问题
ConQRet数据集解决了计算论证领域中长期存在的评估难题,特别是在处理复杂、长篇论证时,传统的人工评估方法成本高且耗时。通过引入多维度的LLM评估方法,该数据集不仅提高了评估的效率和可解释性,还为检索增强论证系统的自动化评估提供了新的可能性,推动了该领域的快速发展。
衍生相关工作
ConQRet数据集的引入催生了一系列相关研究,特别是在检索增强生成(RAG)任务的自动化评估方面。例如,研究者们开发了多种基于LLM的评估方法,如RAG-Rubric和RAG-Direct,这些方法在评估检索相关性和论证质量方面表现出色。此外,该数据集还促进了长篇文档处理和复杂论证生成技术的研究,为计算论证领域的发展提供了新的方向。
以上内容由遇见数据集搜集并总结生成



