LaRA|自然语言处理数据集|文本分析数据集

arXiv2025-02-14 更新2025-02-18 收录

自然语言处理

文本分析

下载链接：

https://github.com/likuanppd/LaRA

下载链接

链接失效反馈

资源简介：

LaRA数据集是由香港科技大学、阿里巴巴集团通用人工智能实验室和宾夕法尼亚州立大学共同创建的，包含2326个测试案例，跨越四个实际问答任务类别，涵盖三种自然发生的长文本类型。该数据集旨在为评估长文本处理能力提供严格的基准，包含小说、学术论文和财务报表等不同写作风格和信息密度的长文本。LaRA的任务设计考虑到定位信息、比较文本不同部分、内容推理和检测虚构内容等方面，以全面评估LC LLMs和RAG的能力。

提供机构：

香港科技大学, 阿里巴巴集团通用人工智能实验室, 宾夕法尼亚州立大学

创建时间：

2025-02-14

AI搜集汇总

数据集介绍

构建方式

LaRA 数据集的构建旨在提供一个公正的比较平台，用于评估 Retrieval-Augmented Generation (RAG) 和 Long-Context (LC) 语言模型在处理外部知识方面的能力。数据集涵盖了四种实际的问答任务类别，并包括三种自然发生的长文本类型，如小说、学术论文和财务报表。为了确保评估的准确性和可靠性，LaRA 使用 GPT-4o 作为判断模型预测正确性的工具，并通过计算 Cohen’s Kappa 系数来验证 LLM 和人工评估之间的一致性。

特点

LaRA 数据集的特点在于其多样性、自然性和实用性。它包含了多种类型的长文本，以反映真实世界的使用场景，并确保了所有问题都具有明确的答案，以便进行准确的评估。此外，LaRA 中的问题设计旨在反映人类在实际使用语言模型时可能提出的问题，从而提高了数据集的实用价值。

使用方法

使用 LaRA 数据集的方法包括：首先，根据数据集的统计信息选择合适的上下文长度和任务类型；其次，使用 GPT-4o 生成 QA 对，并对其进行人工验证，以确保其正确性和实用性；最后，使用 LLM 作为评估工具，通过比较 RAG 和 LC 模型的性能，为实践者提供有价值的指导。

背景与挑战

背景概述

随着大型语言模型（LLM）在各个领域展现出卓越能力，如何有效地将外部知识融入LLM，以增强其功能并满足现实世界需求，成为了一个关键的研究课题。检索增强生成（RAG）作为一种有效方法，通过检索最相关的片段来增强LLM的能力。然而，随着LLM上下文窗口大小的提升，直接将相关信息完整输入模型成为一种新的可能，这引发了RAG是否仍然是处理外部知识的必要手段的疑问。为了解决这一问题，研究人员提出了LaRA数据集，这是一个专门设计的基准，用于严格比较RAG和长上下文（LC）LLM。LaRA包括跨越四个实用问答任务类别和三种自然发生的长文本类型的2,326个测试案例。通过对七个开源和四个私有LLM的系统评估，研究发现，RAG和LC之间的最佳选择取决于模型参数大小、长文本能力、上下文长度、任务类型以及检索片段的特征之间的复杂相互作用。这些发现为实践者提供了有效利用RAG和LC方法来开发和部署LLM应用的行动指南。

当前挑战

LaRA数据集面临的主要挑战包括：1) 所解决的领域问题，即如何有效比较RAG和LC LLM；2) 构建过程中所遇到的挑战，如确保上下文长度最大化、使用自然发生的长文本、确保问题需要从提供的上下文中获取信息、问题具有明确的答案以及问题反映现实世界的查询场景。为了解决这些问题，LaRA在构建时遵循了以下准则：上下文长度应在LLM的输入限制内最大化，以避免截断可能掩盖模型真实能力的问题；上下文应由自然发生的长文本组成，以反映现实世界的使用场景；回答问题应要求从提供的上下文中获取信息，确保LLM不能仅凭其内部知识回答；问题应具有明确的答案，以便使用LLM进行准确评估；问题应反映人类在现实世界中可能提出的实际查询。

常用场景

经典使用场景

LaRA 数据集被设计用来评估和比较长文本理解和生成任务中的检索增强生成（RAG）和长上下文（LC）语言模型（LLM）。通过包含四种实践性的问答任务类别和三种类型的自然发生的长文本，LaRA 为研究者和实践者提供了一个基准，以评估和比较不同模型在处理长文本信息时的性能。数据集的经典使用场景包括评估不同规模的模型、不同长度的上下文、不同类型的任务以及检索到的文本块的特征对模型性能的影响。

解决学术问题

LaRA 数据集解决了现有基准设计中存在的局限性，如上下文长度不足、数据泄露、不合理的评估指标以及缺乏专门的基准等问题。这些问题导致了对 RAG 和 LC 模型性能的不确定比较。LaRA 通过提供更长的上下文、自然发生的长文本、明确的问答任务以及自动和手动验证的评估方法，为研究者和实践者提供了一个更可靠和全面的基准。

衍生相关工作

LaRA 数据集衍生了多种相关的工作，包括改进的检索算法、更精确的评估指标和更有效的模型设计。例如，一些研究者利用 LaRA 数据集来改进检索算法，以提高检索相关信息的准确性。另外一些研究者利用 LaRA 数据集来开发更精确的评估指标，以更准确地评估模型的性能。还有一些研究者利用 LaRA 数据集来设计更有效的模型，以提高模型在处理长文本信息时的性能。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

UniProt

UniProt（Universal Protein Resource）是全球公认的蛋白质序列与功能信息权威数据库，由欧洲生物信息学研究所（EBI）、瑞士生物信息学研究所（SIB）和美国蛋白质信息资源中心（PIR）联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名，整合了实验验证的高质量数据与大规模预测的自动注释内容，涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库（分为人工校验的Swiss-Prot和自动生成的TrEMBL），以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具，为基础研究和药物研发提供了无可替代的支持，成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

ScanNet v2

ScanNet 是一个 RGB-D 视频数据集，包含 1500 多次扫描中的 250 万个视图，并使用 3D 相机姿势、表面重建和实例级语义分割进行注释。为了收集这些数据，我们设计了一个易于使用且可扩展的 RGB-D 捕获系统，其中包括自动表面重建和众包语义注释。我们表明，使用这些数据有助于在几个 3D 场景理解任务上实现最先进的性能，包括 3D 对象分类、语义体素标记和 CAD 模型检索。

OpenDataLab 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度，中国近海台风路径数据集，包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据，经过处理整合后形成文件，如使用csv文件需使用文本编辑器打开浏览，否则会出现乱码，如要使用excel查看数据，请使用xlsx的格式。

国家海洋科学数据中心收录

Photovoltaic power plant data

包括经纬度、电源板模型、NWP等信息。

github 收录