abacusai/LongChat-Lines

Name: abacusai/LongChat-Lines
Creator: abacusai
Published: 2024-01-17 13:08:58
License: 暂无描述

Hugging Face2024-01-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/abacusai/LongChat-Lines

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为LongChat-Lines，用于评估在较长上下文环境中微调模型的性能。数据集基于LMSys提出的任务模板，旨在评估模型对上下文中任意点的注意力。数据集包含多个分割（如100、150等），每个分割包含50个样本，且每个样本具有四个特征：expected_number、num_lines、token_size和prompt。

配置项： - 配置名称：默认（default）数据文件： - 数据拆分：'100'，路径：data/100-* - 数据拆分：'150'，路径：data/150-* - 数据拆分：'175'，路径：data/175-* - 数据拆分：'200'，路径：data/200-* - 数据拆分：'250'，路径：data/250-* - 数据拆分：'300'，路径：data/300-* - 数据拆分：'400'，路径：data/400-* - 数据拆分：'500'，路径：data/500-* - 数据拆分：'600'，路径：data/600-* - 数据拆分：'680'，路径：data/680-* - 数据拆分：'750'，路径：data/750-* - 数据拆分：'850'，路径：data/850-* - 数据拆分：'950'，路径：data/950-* - 数据拆分：'1100'，路径：data/1100-* 数据集信息：特征字段： - 字段名：预期数值（expected_number），数据类型：int64 - 字段名：行数（num_lines），数据类型：int64 - 字段名：Token规模（token_size），数据类型：int64 - 字段名：提示词（prompt），数据类型：string 数据拆分： - 拆分名称：'100'，字节大小：275673，样本数量：50 - 拆分名称：'150'，字节大小：400446，样本数量：50 - 拆分名称：'175'，字节大小：463159，样本数量：50 - 拆分名称：'200'，字节大小：525856，样本数量：50 - 拆分名称：'250'，字节大小：650643，样本数量：50 - 拆分名称：'300'，字节大小：775800，样本数量：50 - 拆分名称：'400'，字节大小：1025288，样本数量：50 - 拆分名称：'500'，字节大小：1276039，样本数量：50 - 拆分名称：'600'，字节大小：1524627，样本数量：50 - 拆分名称：'680'，字节大小：1724325，样本数量：50 - 拆分名称：'750'，字节大小：1899422，样本数量：50 - 拆分名称：'850'，字节大小：2149220，样本数量：50 - 拆分名称：'950'，字节大小：2398398，样本数量：50 - 拆分名称：'1100'，字节大小：2772556，样本数量：50 下载大小：7270406 数据集总大小：17861452 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/64c14f6b02e1f8f67c73bd05/ZhMiuhNRYrju6X0Igg-ov.png) # “LongChat-Lines”数据集卡片本数据集用于评估针对长上下文场景进行微调的模型的性能。其基于LMSys提出的用于评估模型对上下文任意位置注意力的任务模板。详细信息请参阅[https://github.com/abacusai/Long-Context](https://github.com/abacusai/Long-Context)。

提供机构：

abacusai

原始信息汇总

数据集概述

配置信息

config_name: default
data_files:
- split: 100, path: data/100-*
- split: 150, path: data/150-*
- split: 175, path: data/175-*
- split: 200, path: data/200-*
- split: 250, path: data/250-*
- split: 300, path: data/300-*
- split: 400, path: data/400-*
- split: 500, path: data/500-*
- split: 600, path: data/600-*
- split: 680, path: data/680-*
- split: 750, path: data/750-*
- split: 850, path: data/850-*
- split: 950, path: data/950-*
- split: 1100, path: data/1100-*

数据集信息

features:
- name: expected_number, dtype: int64
- name: num_lines, dtype: int64
- name: token_size, dtype: int64
- name: prompt, dtype: string
splits:
- name: 100, num_bytes: 275673, num_examples: 50
- name: 150, num_bytes: 400446, num_examples: 50
- name: 175, num_bytes: 463159, num_examples: 50
- name: 200, num_bytes: 525856, num_examples: 50
- name: 250, num_bytes: 650643, num_examples: 50
- name: 300, num_bytes: 775800, num_examples: 50
- name: 400, num_bytes: 1025288, num_examples: 50
- name: 500, num_bytes: 1276039, num_examples: 50
- name: 600, num_bytes: 1524627, num_examples: 50
- name: 680, num_bytes: 1724325, num_examples: 50
- name: 750, num_bytes: 1899422, num_examples: 50
- name: 850, num_bytes: 2149220, num_examples: 50
- name: 950, num_bytes: 2398398, num_examples: 50
- name: 1100, num_bytes: 2772556, num_examples: 50
download_size: 7270406
dataset_size: 17861452

5,000+

优质数据集

54 个

任务类型

进入经典数据集