BEE-spoke-data/allNLI-sbert

Name: BEE-spoke-data/allNLI-sbert
Creator: BEE-spoke-data
Published: 2024-03-24 08:20:57
License: 暂无描述

Hugging Face2024-03-24 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/BEE-spoke-data/allNLI-sbert

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是allNLI示例数据集的解析和重新格式化版本，以HuggingFace数据集的parquet格式存储。数据集包含两个配置：default和float-labels，每个配置都有三个分割：train、validation和test。数据集的特征包括sentence1、sentence2和label，其中label的数据类型在default配置中为字符串，在float-labels配置中为浮点数。此外，数据集还提供了关于句子token计数的统计信息，包括bert-base-uncased和google/bigbird-roberta-base两种模型的token计数。

提供机构：

BEE-spoke-data

原始信息汇总

数据集概述

基本信息

语言: 英语 (en)
许可证: odc-by
大小分类: 100K<n<1M
任务分类: 句子相似度 (sentence-similarity)

数据集配置

配置名称: default, float-labels
特征:
- sentence1: 字符串 (string)
- sentence2: 字符串 (string)
- label: 字符串 (string) 或浮点数 (float64)

数据集拆分

训练集:
- default: 942069 样本, 144780011.33594054 字节
- float-labels: 942069 样本, 138755142 字节
验证集:
- default: 19657 样本, 3020947.173540986 字节
- float-labels: 19657 样本, 3034127 字节
测试集:
- default: 19656 样本, 3020793.490518473 字节
- float-labels: 19656 样本, 3142127 字节

数据集大小

下载大小:
- default: 72629620 字节
- float-labels: 72653539 字节
数据集大小:
- default: 150821752 字节
- float-labels: 144931396 字节

数据文件路径

default:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*
float-labels:
- 训练集: float-labels/train-*
- 验证集: float-labels/validation-*
- 测试集: float-labels/test-*

令牌统计

sentence1:
- bert-base-uncased: 总计 19.63 M 令牌
- google/bigbird-roberta-base: 总计 19.48 M 令牌
sentence2:
- bert-base-uncased: 总计 11.36 M 令牌
- google/bigbird-roberta-base: 总计 11.31 M 令牌

5,000+

优质数据集

54 个

任务类型

进入经典数据集