five

L4NLP/LEval|自然语言处理数据集|长文本理解数据集

收藏
hugging_face2023-10-11 更新2024-03-04 收录
自然语言处理
长文本理解
下载链接:
https://hf-mirror.com/datasets/L4NLP/LEval
下载链接
链接失效反馈
资源简介:
L-Eval是一个用于评估长上下文语言模型的综合测试套件,包含18个长文档任务,涵盖多个领域,需要对这些长文本进行推理。数据集包含411个长文档和2043个查询-响应对,所有样本都经过作者的手动注释和检查。L-Eval旨在帮助研究人员和开发者跟踪长上下文语言模型的进展,并理解不同方法的优缺点。
提供机构:
L4NLP
原始信息汇总

数据集概述

基本信息

  • 许可证: GPL-3.0
  • 任务类别:
    • 总结
    • 问答
    • 多选题
  • 语言: 英语
  • 数据集大小: 1K<n<10K
  • 预览: 可用
  • 标签: 长上下文

数据集详情

  • 名称: L-Eval
  • 描述: L-Eval是一个用于评估长上下文语言模型的综合测试集,包含18个跨多个领域的长文档任务,涉及总结、问答、上下文学习、主题检索和论文写作辅助等。该数据集包含411个长文档和2043个查询-响应对,所有样本均由作者手动标注和检查。
  • 目的: 帮助研究人员和开发者追踪长上下文语言模型的进展,并理解不同方法的优缺点。

数据集列表

  • coursera
  • gsm100
  • quality
  • topic_retrieval_longchat
  • tpo
  • financial_qa
  • gov_report_summ
  • legal_contract_qa
  • meeting_summ
  • multidoc_qa
  • narrative_qa
  • natural_question
  • news_summ
  • paper_assistant
  • patent_summ
  • review_summ
  • scientific_qa
  • tv_show_summ
AI搜集汇总
数据集介绍
main_image_url
构建方式
L4NLP/LEval数据集的构建旨在评估长文本语境下的语言模型性能。该数据集涵盖了18个长文档任务,跨越多个领域,如总结、问答、长上下文学习等。数据集包含了411个长文档和2043个查询-响应对,所有样本均经过人工标注和审核,确保了数据的高质量。
特点
L4NLP/LEval数据集的特点在于其专注于长文本语境的语言模型评估,提供了丰富的任务类型,包括但不限于长文本总结、长文本问答等。其数据来源多样,涵盖了教育、金融、政府报告等多个领域,为研究者和开发者提供了全面的语言模型性能评估资源。
使用方法
使用L4NLP/LEval数据集时,用户可以从提供的详细描述和数据收集方式中获取指导。数据集支持多种任务类别,如摘要、问答等,用户可根据具体研究需求选择相应的任务数据。此外,数据集的开放性和标准化评估方法使得其易于集成到现有的语言模型评估框架中。
背景与挑战
背景概述
L4NLP/LEval数据集,作为一项旨在评估长文本语境下语言模型性能的研究成果,由L4NLP团队精心构建。该数据集诞生于近年来对长文本语境下推理能力的需求日益增长之际,涵盖了总结、问答、长文本上下文学习、主题检索以及论文写作辅助等18项任务,跨越多个领域。数据集包含了411篇长文档和2043个查询-响应对,全部经过人工标注与审核,确保了数据的高质量。LEval的创建,不仅为研究人员和开发者提供了一个跟踪长语境语言模型(LCLMs)进展的工具,也助力于理解不同方法的优势与不足,对自然语言处理领域产生了显著影响。
当前挑战
LEval数据集面临的挑战主要在于两个方面:一是评估长文本语境下语言模型在下游任务中的表现,这些任务需要模型具备较强的推理能力,对模型的性能提出了更高的要求;二是构建过程中,如何确保数据质量,特别是长文档的标注和查询-响应对的匹配,这要求研究人员在数据收集和预处理阶段投入大量的时间和精力。此外,随着长语境语言模型的不断进步,如何更新和扩展数据集,以适应新的模型性能,也是一项持续的挑战。
常用场景
经典使用场景
在当前自然语言处理领域,L4NLP/LEval数据集以其全面覆盖长文本推理任务的特点,成为评估长文本语言模型性能的重要资源。该数据集包含十八项任务,如长文本摘要、问题回答、长上下文学习等,均围绕长文档的推理进行。研究人员和开发者通过该数据集,可以精确地测试和比较不同模型在处理长文本时的性能差异,进而指导模型优化与改进。
解决学术问题
L4NLP/LEval数据集解决了传统数据集在长文本处理能力评估上的不足,为学术研究提供了标准化的评测手段。它使得研究者能够深入理解长文本语言模型在多个领域的表现,识别不同方法的优势与不足,从而推动长文本处理技术的发展。该数据集的引入,对于提升模型在真实世界任务中的适应性具有重大意义。
衍生相关工作
基于L4NLP/LEval数据集的研究成果,衍生出了众多经典工作。学者们通过该数据集开展了一系列关于长文本语言模型性能评估的研究,发表了多篇具有影响力的论文。此外,该数据集还促进了相关评测工具和模型的开发,为长文本处理领域的研究提供了丰富的资源和工具。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

Apple Stock Price Data

Historical stock price data for AAPL (apple)

kaggle 收录

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录