five

LaRA|自然语言处理数据集|文本分析数据集

收藏
arXiv2025-02-14 更新2025-02-18 收录
自然语言处理
文本分析
下载链接:
https://github.com/likuanppd/LaRA
下载链接
链接失效反馈
资源简介:
LaRA数据集是由香港科技大学、阿里巴巴集团通用人工智能实验室和宾夕法尼亚州立大学共同创建的,包含2326个测试案例,跨越四个实际问答任务类别,涵盖三种自然发生的长文本类型。该数据集旨在为评估长文本处理能力提供严格的基准,包含小说、学术论文和财务报表等不同写作风格和信息密度的长文本。LaRA的任务设计考虑到定位信息、比较文本不同部分、内容推理和检测虚构内容等方面,以全面评估LC LLMs和RAG的能力。
提供机构:
香港科技大学, 阿里巴巴集团通用人工智能实验室, 宾夕法尼亚州立大学
创建时间:
2025-02-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
LaRA 数据集的构建旨在提供一个公正的比较平台,用于评估 Retrieval-Augmented Generation (RAG) 和 Long-Context (LC) 语言模型在处理外部知识方面的能力。数据集涵盖了四种实际的问答任务类别,并包括三种自然发生的长文本类型,如小说、学术论文和财务报表。为了确保评估的准确性和可靠性,LaRA 使用 GPT-4o 作为判断模型预测正确性的工具,并通过计算 Cohen’s Kappa 系数来验证 LLM 和人工评估之间的一致性。
特点
LaRA 数据集的特点在于其多样性、自然性和实用性。它包含了多种类型的长文本,以反映真实世界的使用场景,并确保了所有问题都具有明确的答案,以便进行准确的评估。此外,LaRA 中的问题设计旨在反映人类在实际使用语言模型时可能提出的问题,从而提高了数据集的实用价值。
使用方法
使用 LaRA 数据集的方法包括:首先,根据数据集的统计信息选择合适的上下文长度和任务类型;其次,使用 GPT-4o 生成 QA 对,并对其进行人工验证,以确保其正确性和实用性;最后,使用 LLM 作为评估工具,通过比较 RAG 和 LC 模型的性能,为实践者提供有价值的指导。
背景与挑战
背景概述
随着大型语言模型(LLM)在各个领域展现出卓越能力,如何有效地将外部知识融入LLM,以增强其功能并满足现实世界需求,成为了一个关键的研究课题。检索增强生成(RAG)作为一种有效方法,通过检索最相关的片段来增强LLM的能力。然而,随着LLM上下文窗口大小的提升,直接将相关信息完整输入模型成为一种新的可能,这引发了RAG是否仍然是处理外部知识的必要手段的疑问。为了解决这一问题,研究人员提出了LaRA数据集,这是一个专门设计的基准,用于严格比较RAG和长上下文(LC)LLM。LaRA包括跨越四个实用问答任务类别和三种自然发生的长文本类型的2,326个测试案例。通过对七个开源和四个私有LLM的系统评估,研究发现,RAG和LC之间的最佳选择取决于模型参数大小、长文本能力、上下文长度、任务类型以及检索片段的特征之间的复杂相互作用。这些发现为实践者提供了有效利用RAG和LC方法来开发和部署LLM应用的行动指南。
当前挑战
LaRA数据集面临的主要挑战包括:1) 所解决的领域问题,即如何有效比较RAG和LC LLM;2) 构建过程中所遇到的挑战,如确保上下文长度最大化、使用自然发生的长文本、确保问题需要从提供的上下文中获取信息、问题具有明确的答案以及问题反映现实世界的查询场景。为了解决这些问题,LaRA在构建时遵循了以下准则:上下文长度应在LLM的输入限制内最大化,以避免截断可能掩盖模型真实能力的问题;上下文应由自然发生的长文本组成,以反映现实世界的使用场景;回答问题应要求从提供的上下文中获取信息,确保LLM不能仅凭其内部知识回答;问题应具有明确的答案,以便使用LLM进行准确评估;问题应反映人类在现实世界中可能提出的实际查询。
常用场景
经典使用场景
LaRA 数据集被设计用来评估和比较长文本理解和生成任务中的检索增强生成(RAG)和长上下文(LC)语言模型(LLM)。通过包含四种实践性的问答任务类别和三种类型的自然发生的长文本,LaRA 为研究者和实践者提供了一个基准,以评估和比较不同模型在处理长文本信息时的性能。数据集的经典使用场景包括评估不同规模的模型、不同长度的上下文、不同类型的任务以及检索到的文本块的特征对模型性能的影响。
解决学术问题
LaRA 数据集解决了现有基准设计中存在的局限性,如上下文长度不足、数据泄露、不合理的评估指标以及缺乏专门的基准等问题。这些问题导致了对 RAG 和 LC 模型性能的不确定比较。LaRA 通过提供更长的上下文、自然发生的长文本、明确的问答任务以及自动和手动验证的评估方法,为研究者和实践者提供了一个更可靠和全面的基准。
衍生相关工作
LaRA 数据集衍生了多种相关的工作,包括改进的检索算法、更精确的评估指标和更有效的模型设计。例如,一些研究者利用 LaRA 数据集来改进检索算法,以提高检索相关信息的准确性。另外一些研究者利用 LaRA 数据集来开发更精确的评估指标,以更准确地评估模型的性能。还有一些研究者利用 LaRA 数据集来设计更有效的模型,以提高模型在处理长文本信息时的性能。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

人民日报语料库 (1998.1)

本库主要提供用于NER任务的处理好的语料,包括基于词级和字级任务的NER数据。数据集包含19484个以行为粒度切分的句子,句子长度最大为659,平均长度为57.55666187641141。实体标注采用BIO格式,区分人名、地名和机构团体。

github 收录

中亚主要国家的原油资源的储量、产量、消费量及其占世界比重(1985-2016)

中亚五国中,石油资源主要分布在哈萨克斯坦、乌兹别克斯坦、土库曼斯坦三个国家。根据BP世界能源统计年鉴,经整理、抽取、计算和汇总后,形成中亚主要国家(哈萨克斯坦、乌兹别克斯坦、土库曼斯坦)原油资源的储量、产量、消费量及其占世界比重的统计表。 主要指标包括: (1)储量,1991-2016年,单位:百万吨 (2)产量,1985-2016年,单位:百万吨 (3)储产比,1991-2016年,单位:百万吨 (4)消费量,1985-2016年,单位:百万吨 (5)产消差额,1985-2016年,单位:百万吨 此外,以上数据均包括中亚地区的哈萨克斯坦、乌兹别克斯坦、土库曼斯坦、三国汇总以及世界总量的情况。

地球大数据科学工程 收录