BEE-spoke-data/allNLI-sbert
收藏Hugging Face2024-03-24 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/allNLI-sbert
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是allNLI示例数据集的解析和重新格式化版本,以HuggingFace数据集的parquet格式存储。数据集包含两个配置:default和float-labels,每个配置都有三个分割:train、validation和test。数据集的特征包括sentence1、sentence2和label,其中label的数据类型在default配置中为字符串,在float-labels配置中为浮点数。此外,数据集还提供了关于句子token计数的统计信息,包括bert-base-uncased和google/bigbird-roberta-base两种模型的token计数。
该数据集是allNLI示例数据集的解析和重新格式化版本,以HuggingFace数据集的parquet格式存储。数据集包含两个配置:default和float-labels,每个配置都有三个分割:train、validation和test。数据集的特征包括sentence1、sentence2和label,其中label的数据类型在default配置中为字符串,在float-labels配置中为浮点数。此外,数据集还提供了关于句子token计数的统计信息,包括bert-base-uncased和google/bigbird-roberta-base两种模型的token计数。
提供机构:
BEE-spoke-data
原始信息汇总
数据集概述
基本信息
- 语言: 英语 (
en) - 许可证: odc-by
- 大小分类: 100K<n<1M
- 任务分类: 句子相似度 (
sentence-similarity)
数据集配置
- 配置名称: default, float-labels
- 特征:
- sentence1: 字符串 (
string) - sentence2: 字符串 (
string) - label: 字符串 (
string) 或 浮点数 (float64)
- sentence1: 字符串 (
数据集拆分
- 训练集:
- default: 942069 样本, 144780011.33594054 字节
- float-labels: 942069 样本, 138755142 字节
- 验证集:
- default: 19657 样本, 3020947.173540986 字节
- float-labels: 19657 样本, 3034127 字节
- 测试集:
- default: 19656 样本, 3020793.490518473 字节
- float-labels: 19656 样本, 3142127 字节
数据集大小
- 下载大小:
- default: 72629620 字节
- float-labels: 72653539 字节
- 数据集大小:
- default: 150821752 字节
- float-labels: 144931396 字节
数据文件路径
- default:
- 训练集:
data/train-* - 验证集:
data/validation-* - 测试集:
data/test-*
- 训练集:
- float-labels:
- 训练集:
float-labels/train-* - 验证集:
float-labels/validation-* - 测试集:
float-labels/test-*
- 训练集:
令牌统计
- sentence1:
- bert-base-uncased: 总计 19.63 M 令牌
- google/bigbird-roberta-base: 总计 19.48 M 令牌
- sentence2:
- bert-base-uncased: 总计 11.36 M 令牌
- google/bigbird-roberta-base: 总计 11.31 M 令牌



