five

abacusai/LongChat-Lines

收藏
Hugging Face2024-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/abacusai/LongChat-Lines
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为LongChat-Lines,用于评估在较长上下文环境中微调模型的性能。数据集基于LMSys提出的任务模板,旨在评估模型对上下文中任意点的注意力。数据集包含多个分割(如100、150等),每个分割包含50个样本,且每个样本具有四个特征:expected_number、num_lines、token_size和prompt。

配置项: - 配置名称:默认(default) 数据文件: - 数据拆分:'100',路径:data/100-* - 数据拆分:'150',路径:data/150-* - 数据拆分:'175',路径:data/175-* - 数据拆分:'200',路径:data/200-* - 数据拆分:'250',路径:data/250-* - 数据拆分:'300',路径:data/300-* - 数据拆分:'400',路径:data/400-* - 数据拆分:'500',路径:data/500-* - 数据拆分:'600',路径:data/600-* - 数据拆分:'680',路径:data/680-* - 数据拆分:'750',路径:data/750-* - 数据拆分:'850',路径:data/850-* - 数据拆分:'950',路径:data/950-* - 数据拆分:'1100',路径:data/1100-* 数据集信息: 特征字段: - 字段名:预期数值(expected_number),数据类型:int64 - 字段名:行数(num_lines),数据类型:int64 - 字段名:Token规模(token_size),数据类型:int64 - 字段名:提示词(prompt),数据类型:string 数据拆分: - 拆分名称:'100',字节大小:275673,样本数量:50 - 拆分名称:'150',字节大小:400446,样本数量:50 - 拆分名称:'175',字节大小:463159,样本数量:50 - 拆分名称:'200',字节大小:525856,样本数量:50 - 拆分名称:'250',字节大小:650643,样本数量:50 - 拆分名称:'300',字节大小:775800,样本数量:50 - 拆分名称:'400',字节大小:1025288,样本数量:50 - 拆分名称:'500',字节大小:1276039,样本数量:50 - 拆分名称:'600',字节大小:1524627,样本数量:50 - 拆分名称:'680',字节大小:1724325,样本数量:50 - 拆分名称:'750',字节大小:1899422,样本数量:50 - 拆分名称:'850',字节大小:2149220,样本数量:50 - 拆分名称:'950',字节大小:2398398,样本数量:50 - 拆分名称:'1100',字节大小:2772556,样本数量:50 下载大小:7270406 数据集总大小:17861452 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/64c14f6b02e1f8f67c73bd05/ZhMiuhNRYrju6X0Igg-ov.png) # “LongChat-Lines”数据集卡片 本数据集用于评估针对长上下文场景进行微调的模型的性能。其基于LMSys提出的用于评估模型对上下文任意位置注意力的任务模板。详细信息请参阅[https://github.com/abacusai/Long-Context](https://github.com/abacusai/Long-Context)。
提供机构:
abacusai
原始信息汇总

数据集概述

配置信息

  • config_name: default
  • data_files:
    • split: 100, path: data/100-*
    • split: 150, path: data/150-*
    • split: 175, path: data/175-*
    • split: 200, path: data/200-*
    • split: 250, path: data/250-*
    • split: 300, path: data/300-*
    • split: 400, path: data/400-*
    • split: 500, path: data/500-*
    • split: 600, path: data/600-*
    • split: 680, path: data/680-*
    • split: 750, path: data/750-*
    • split: 850, path: data/850-*
    • split: 950, path: data/950-*
    • split: 1100, path: data/1100-*

数据集信息

  • features:
    • name: expected_number, dtype: int64
    • name: num_lines, dtype: int64
    • name: token_size, dtype: int64
    • name: prompt, dtype: string
  • splits:
    • name: 100, num_bytes: 275673, num_examples: 50
    • name: 150, num_bytes: 400446, num_examples: 50
    • name: 175, num_bytes: 463159, num_examples: 50
    • name: 200, num_bytes: 525856, num_examples: 50
    • name: 250, num_bytes: 650643, num_examples: 50
    • name: 300, num_bytes: 775800, num_examples: 50
    • name: 400, num_bytes: 1025288, num_examples: 50
    • name: 500, num_bytes: 1276039, num_examples: 50
    • name: 600, num_bytes: 1524627, num_examples: 50
    • name: 680, num_bytes: 1724325, num_examples: 50
    • name: 750, num_bytes: 1899422, num_examples: 50
    • name: 850, num_bytes: 2149220, num_examples: 50
    • name: 950, num_bytes: 2398398, num_examples: 50
    • name: 1100, num_bytes: 2772556, num_examples: 50
  • download_size: 7270406
  • dataset_size: 17861452
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作