sentence-transformers/wikipedia-sections

Name: sentence-transformers/wikipedia-sections
Creator: sentence-transformers
Published: 2024-05-02 11:57:36
License: 暂无描述

Hugging Face2024-05-02 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/sentence-transformers/wikipedia-sections

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含可用于训练和微调Sentence Transformer嵌入模型的句子对和三元组。数据集来源于Dor等人的研究，并且是从指定的下载链接获取的。数据集中，anchor列包含来自Wikipedia的句子，positive列包含来自同一部分的其他句子，而negative列包含来自其他部分的句子。数据集已经去重，并且提供了训练、验证和测试的分割。

提供机构：

sentence-transformers

原始信息汇总

数据集概述

基本信息

语言: 英语
多语言性: 单语种
大小: 1M<n<10M
任务类别: 特征提取, 句子相似度
名称: Wikipedia Sections
标签: sentence-transformers

数据集配置

`pair` 配置

特征:
- anchor: 字符串
- positive: 字符串
分割:
- train: 1779417 个例子, 490913561 字节
- validation: 220400 个例子, 60891304 字节
- test: 222957 个例子, 61385426 字节
下载大小: 295222520 字节
数据集大小: 613190291 字节

`triplet` 配置

特征:
- anchor: 字符串
- positive: 字符串
- negative: 字符串
分割:
- train: 1779417 个例子, 733058519 字节
- validation: 220400 个例子, 90881953 字节
- test: 222957 个例子, 91705993 字节
下载大小: 500545462 字节
数据集大小: 915646465 字节

数据集文件

`pair` 配置

训练数据: pair/train-*
验证数据: pair/validation-*
测试数据: pair/test-*

`triplet` 配置

训练数据: triplet/train-*
验证数据: triplet/validation-*
测试数据: triplet/test-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集

sentence-transformers/wikipedia-sections

数据集概述

基本信息

数据集配置

pair 配置

triplet 配置

数据集文件

pair 配置

triplet 配置

`pair` 配置

`triplet` 配置

`pair` 配置

`triplet` 配置