LongEval|长文本处理数据集|模型评估数据集

github2023-06-01 更新2025-02-08 收录

长文本处理

模型评估

下载链接：

https://github.com/DachengLi1/LongChat

下载链接

链接失效反馈

资源简介：

长文评估（LongEval）数据集支持对依赖广泛文本上下文的模型进行评估。任务分为两个不同的难度级别：一个专注于广泛主题检索，另一个强调详细段落检索。评估数据利用代码合成来满足任务规范，提供了一种简单且快速的方法来衡量和比较模型在长文本上的有效性。输入长度范围为5,000到16,000字符。

The LongEval dataset supports the evaluation of models capable of understanding extensive textual context. The task is divided into two different difficulty levels: one focusing on broad topic retrieval and the other emphasizing detailed paragraph retrieval. The evaluation utilizes code synthesis to meet the task specifications, providing a simple and rapid method for measuring and comparing the effectiveness of models on long texts. The input length ranges from 5,000 to 16,000 characters.

提供机构：

LMSYS

创建时间：

2023-06-01

原始信息汇总

LongChat数据集概述

数据集简介

官方仓库：支持训练和评估基于长上下文LLM的聊天机器人
包含LongChat和LongEval两个主要组件
相关科学发现见博客文章

模型资源

预训练模型：
- LongChat-13b-16k
- LongChat-7b-16k

训练配置

训练脚本示例使用8xA100 GPU
关键参数：
- 模型最大长度：16384
- 训练周期：3
- 学习率：2e-5
- 批量大小：1(训练)/4(评估)
- 使用FlashAttention处理超长序列

评估功能

提供两种评估任务：
- 粗粒度主题召回(topics)
- 行召回(lines)
评估脚本支持自定义模型和任务
包含测试用例生成功能

引用格式

bibtex @misc{longchat2023, title = {How Long Can Open-Source LLMs Truly Promise on Context Length?}, url = {https://lmsys.org/blog/2023-06-29-longchat}, author = {Dacheng Li*, Rulin Shao*, Anze Xie, Ying Sheng, Lianmin Zheng, Joseph E. Gonzalez, Ion Stoica, Xuezhe Ma, and Hao Zhang}, month = {June}, year = {2023} }

AI搜集汇总

数据集介绍

构建方式

LongEval数据集的构建基于长上下文语言模型（LLM）的训练与评估需求，采用了Llama 2模型作为基础，并通过32K的上下文长度进行扩展。数据集的构建过程包括从HuggingFace下载预训练模型权重，并使用特定的训练脚本进行微调。训练过程中，采用了分布式训练策略，结合了FlashAttention技术以支持超长序列的处理，确保了模型在长上下文场景下的高效训练与评估。

特点

LongEval数据集的核心特点在于其专注于长上下文对话场景的评估，提供了16K和32K两种上下文长度的模型版本。数据集包含了丰富的对话数据，支持从粗粒度到细粒度的多维度评估任务，如主题召回和行召回任务。此外，数据集还提供了自动化的评估工具，能够通过ChatGPT-3.5-turbo进行自动评分，极大地简化了评估流程，提升了评估的准确性与效率。

使用方法

使用LongEval数据集进行模型评估时，用户可以通过提供的命令行工具或Jupyter Notebook进行任务配置与执行。评估任务包括主题召回和行召回，用户只需指定模型路径和任务类型即可启动评估。对于复杂的主题召回任务，数据集还提供了自动评分工具，用户可以通过设置OPENAI_API_KEY调用ChatGPT-3.5-turbo进行自动评分。此外，用户还可以通过生成新的测试用例配置文件，自定义评估任务的具体参数，以满足不同场景下的评估需求。

背景与挑战

背景概述

LongEval数据集由LMSYS机构于2023年发布，旨在评估长上下文大语言模型（LLM）在对话系统中的表现。该数据集的核心研究问题聚焦于如何有效扩展和评估LLM在处理长上下文对话时的能力。通过提供16K和32K上下文长度的模型训练与评估工具，LongEval为研究人员提供了一个标准化的平台，以探索长上下文对话模型的潜力与局限。该数据集的发布不仅推动了对话系统领域的技术进步，还为开源LLM的上下文长度扩展提供了重要的实验依据。

当前挑战

LongEval数据集面临的挑战主要体现在两个方面。首先，长上下文对话模型的评估本身具有复杂性，尤其是在处理多轮对话时，模型需要准确捕捉并维持上下文信息，这对模型的记忆与推理能力提出了极高要求。其次，数据集的构建过程中，如何生成具有代表性的长上下文对话数据，并确保其多样性与真实性，是一个技术难题。此外，评估过程中，如何设计有效的指标来衡量模型在长上下文任务中的表现，仍需进一步探索与优化。

常用场景

经典使用场景

LongEval数据集主要用于评估和训练长上下文语言模型（LLM）的性能，特别是在处理超长文本序列时的表现。通过提供标准化的评估框架，研究人员可以在统一的基准上测试不同模型的长上下文理解能力。该数据集特别适用于研究模型在长对话、文档摘要、以及多轮问答等场景中的表现，帮助开发者优化模型的长文本处理能力。

解决学术问题

LongEval数据集解决了长上下文语言模型在学术研究中的关键问题，即如何有效评估模型在超长文本序列中的表现。传统评估方法往往难以覆盖长文本的复杂性，而LongEval通过设计精细的评估任务（如主题召回和行召回），为研究者提供了量化模型性能的工具。这一数据集的出现填补了长上下文评估领域的空白，推动了长文本处理技术的进一步发展。

衍生相关工作

LongEval数据集的发布催生了一系列相关研究工作。例如，基于该数据集的研究成果，许多团队开发了改进的长上下文语言模型，如LongChat系列模型。此外，LongEval还启发了更多针对长文本处理的研究方向，如长文本生成、长文档分类等。这些工作不仅扩展了长上下文语言模型的应用范围，也为未来的研究提供了宝贵的参考和工具。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

OpenPose

OpenPose数据集包含人体姿态估计的相关数据，主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频，标注了人体关键点位置，适用于研究人体姿态识别和动作分析。

github.com 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

全国 1∶200 000 数字地质图（公开版）空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

中指数据库（物业版）

物业版解决物业企业“找项目”、“找行业和企业数据"的迫切需求，提供高效的市场拓展渠道、最新行业动态、竞品企业的多维度数据，助力企业科学决策。

西部数据交易中心收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录