five

REASONS

收藏
arXiv2024-05-09 更新2024-06-21 收录
下载链接:
https://anonymous.4open.science/r/REASONS_BENCHMARK-D04D/README.md
下载链接
链接失效反馈
官方服务:
资源简介:
REASIONS数据集是由南加州大学人工智能研究所创建,包含来自arXiv的12个科学研究领域的约20,000篇研究文章的摘要。该数据集旨在评估大型语言模型(LLMs)在自动引用生成任务中的表现,特别是在直接和间接查询下的引用生成能力。数据集内容丰富,包括文章标题、摘要、作者信息等元数据,支持对LLMs在不同科学领域的引用生成质量进行深入分析。REASONS数据集的应用领域广泛,包括情报分析、网络安全、新闻机构和教育等,旨在解决自动引用生成中的准确性和可靠性问题。

The REASIONS Dataset was developed by the Institute for Artificial Intelligence of the University of Southern California. It contains summaries of approximately 20,000 research articles across 12 scientific fields sourced from arXiv. This dataset is designed to evaluate the performance of Large Language Models (LLMs) on automatic citation generation tasks, particularly their ability to generate citations under both direct and indirect queries. It includes rich metadata such as article titles, abstracts, author information and other relevant details, enabling in-depth analysis of the citation generation quality of LLMs across different scientific domains. The REASIONS Dataset has a wide range of application scenarios including intelligence analysis, cybersecurity, news agencies and education, aiming to address the accuracy and reliability issues in automatic citation generation.
提供机构:
南加州大学人工智能研究所
创建时间:
2024-05-04
搜集汇总
数据集介绍
main_image_url
构建方式
在学术文献自动引证生成的研究背景下,REASONS数据集的构建体现了严谨的系统化流程。该数据集从arXiv平台选取了计算机视觉、机器人学、图形学等12个核心科学领域的论文,时间跨度为2017年至2023年,以确保数据的时效性与代表性。构建过程通过Oxylabs SERP Scraper API进行网络爬取,专注于提取论文“相关工作”部分的句子及其对应引文。每个句子均附有完整的元数据,包括引文论文的标题、摘要和作者信息,以及源论文的标题。数据集以结构化JSON格式组织,涵盖了约20,000篇研究论文中的12,723个句子,形成了兼具深度与广度的基准资源。
使用方法
该数据集主要用于评估和比较不同大语言模型在自动引证生成任务上的性能。研究者可通过实施直接查询与间接查询两种实验设置来测试模型。在直接查询中,模型根据给定论文标题生成作者列表;在间接查询中,模型需根据一个句子推断其所引用的论文标题。实验可进一步分为零样本提示、结合元数据提示以及顺序间接直接提示等多种策略,以探究不同信息输入对模型表现的影响。评估指标包括幻觉率、通过百分比、F1分数和BLEU分数,从而全面衡量生成引证的准确性、可靠性和文本质量。数据集的结构化设计也支持对检索增强生成等先进技术进行针对性研究与优化。
背景与挑战
背景概述
在人工智能与自然语言处理领域,自动引文生成是提升学术写作与情报分析效率的关键技术。REASONS数据集由南加州大学AI研究所、马里兰大学巴尔的摩分校等机构的研究团队于2024年创建,旨在评估大型语言模型在科学句子检索与自动引文生成任务中的性能。该数据集从arXiv平台选取了2017年至2023年间12个热门研究领域的近两万篇论文摘要,通过标注句子级引文及其元数据,为核心研究问题——即LLM在直接查询(生成作者名)与间接查询(生成引文标题)中的上下文理解与引文生成准确性——提供了系统化评估基准。REASONS的构建推动了检索增强生成技术在引文生成领域的应用,并为LLM的可靠性研究提供了重要数据支撑。
当前挑战
REASONS数据集所针对的自动引文生成任务面临多重挑战:在领域问题层面,模型需克服引文生成中的幻觉现象,即在缺乏准确上下文理解时生成虚构或不准确的引文;同时,模型需在直接查询与间接查询中平衡通过率与幻觉率,确保生成引文的准确性与完整性。在数据集构建过程中,挑战包括从多领域科学文献中精准提取句子级引文及其元数据,确保数据标注的一致性与可扩展性;此外,需处理不同学科领域(如量子计算、生物分子等)中数学符号与专业术语的复杂性,以及避免训练数据的时间偏差,以全面评估LLM的泛化能力与上下文感知水平。
常用场景
经典使用场景
在学术文献自动引证生成的研究领域,REASONS数据集被广泛用于评估大型语言模型在理解上下文并生成准确引证方面的能力。该数据集通过提供来自arXiv上12个主流科学领域研究论文的摘要及句子级引证标注,为研究者构建了一个标准化的测试平台。其经典应用场景包括设计直接查询与间接查询任务,以检验模型在给定论文标题时生成作者列表,或在给定句子时推断所引论文标题的效能。这一场景深刻反映了当前自然语言处理技术对学术文本深层语义把握的追求。
解决学术问题
REASONS数据集主要针对大型语言模型在自动引证生成中存在的幻觉问题与上下文理解不足的学术挑战。通过引入幻觉率与通过百分比等量化指标,该数据集使研究者能够系统评估模型生成引证的准确性与可靠性。其意义在于首次为基于检索增强生成的引证生成模型提供了跨领域、大规模的真实数据基准,推动了模型在保持事实一致性方面的技术进步。该数据集的建立为缓解生成文本中虚构引证这一普遍难题提供了实证基础,对提升学术写作辅助工具的实用性具有深远影响。
实际应用
在实际应用层面,REASONS数据集所支撑的技术可广泛应用于智能学术写作助手、自动化文献综述生成以及科研报告撰写系统。例如,在新闻机构或情报分析领域,该系统能够为起草的报告自动添加准确引证,增强信息的可信度与可追溯性。在教育场景中,它可帮助学生或研究人员快速定位相关文献,提升学术写作的效率与规范性。这些应用显著降低了人工核查引证的时间成本,并为高风险领域如网络安全、法律文书等提供了增强事实核查能力的解决方案。
数据集最近研究
最新研究方向
在学术文献自动引证生成领域,REASONS数据集的推出标志着对大型语言模型(LLMs)上下文理解与引证准确性的系统性评估迈入新阶段。当前研究聚焦于通过检索增强生成(RAG)技术优化引证生成的可信度,特别是针对间接查询场景下模型幻觉率(HR)与通过率(PP)的平衡问题。前沿探索表明,结合元数据(如摘要与标题)的序列化间接-直接提示(SID Prompting)能显著提升生成质量,其中基于Mistral的先进RAG架构在多项指标上媲美甚至超越GPT-4等专有模型。这一进展不仅为智能分析、网络安全等高风险领域的自动化报告生成提供了可靠性保障,也推动了基于知识图谱与图检索的下一代引证生成技术的发展,为LLMs在学术诚信与信息溯源方面的应用奠定了实证基础。
相关研究论文
  • 1
    REASONS: A benchmark for REtrieval and Automated citationS Of scieNtific Sentences using Public and Proprietary LLMs南加州大学人工智能研究所 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作