five

BEE-spoke-data/allNLI-sbert

收藏
Hugging Face2024-03-24 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/allNLI-sbert
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是allNLI示例数据集的解析和重新格式化版本,以HuggingFace数据集的parquet格式存储。数据集包含两个配置:default和float-labels,每个配置都有三个分割:train、validation和test。数据集的特征包括sentence1、sentence2和label,其中label的数据类型在default配置中为字符串,在float-labels配置中为浮点数。此外,数据集还提供了关于句子token计数的统计信息,包括bert-base-uncased和google/bigbird-roberta-base两种模型的token计数。

该数据集是allNLI示例数据集的解析和重新格式化版本,以HuggingFace数据集的parquet格式存储。数据集包含两个配置:default和float-labels,每个配置都有三个分割:train、validation和test。数据集的特征包括sentence1、sentence2和label,其中label的数据类型在default配置中为字符串,在float-labels配置中为浮点数。此外,数据集还提供了关于句子token计数的统计信息,包括bert-base-uncased和google/bigbird-roberta-base两种模型的token计数。
提供机构:
BEE-spoke-data
原始信息汇总

数据集概述

基本信息

  • 语言: 英语 (en)
  • 许可证: odc-by
  • 大小分类: 100K<n<1M
  • 任务分类: 句子相似度 (sentence-similarity)

数据集配置

  • 配置名称: default, float-labels
  • 特征:
    • sentence1: 字符串 (string)
    • sentence2: 字符串 (string)
    • label: 字符串 (string) 或 浮点数 (float64)

数据集拆分

  • 训练集:
    • default: 942069 样本, 144780011.33594054 字节
    • float-labels: 942069 样本, 138755142 字节
  • 验证集:
    • default: 19657 样本, 3020947.173540986 字节
    • float-labels: 19657 样本, 3034127 字节
  • 测试集:
    • default: 19656 样本, 3020793.490518473 字节
    • float-labels: 19656 样本, 3142127 字节

数据集大小

  • 下载大小:
    • default: 72629620 字节
    • float-labels: 72653539 字节
  • 数据集大小:
    • default: 150821752 字节
    • float-labels: 144931396 字节

数据文件路径

  • default:
    • 训练集: data/train-*
    • 验证集: data/validation-*
    • 测试集: data/test-*
  • float-labels:
    • 训练集: float-labels/train-*
    • 验证集: float-labels/validation-*
    • 测试集: float-labels/test-*

令牌统计

  • sentence1:
    • bert-base-uncased: 总计 19.63 M 令牌
    • google/bigbird-roberta-base: 总计 19.48 M 令牌
  • sentence2:
    • bert-base-uncased: 总计 11.36 M 令牌
    • google/bigbird-roberta-base: 总计 11.31 M 令牌
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作