sentence-transformers/s2orc
收藏Hugging Face2024-05-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/s2orc
下载链接
链接失效反馈官方服务:
资源简介:
S2ORC数据集包含来自Semantic Scholar开放研究语料库(S2ORC)的科学论文的标题、摘要和引用。该数据集可用于训练嵌入模型,特别是Sentence Transformer模型。数据集包含三个子集:title-abstract-pair、title-citation-pair和abstract-citation-pair,每个子集都有其特定的列和数据类型,并提供了示例和收集策略。
S2ORC数据集包含来自Semantic Scholar开放研究语料库(S2ORC)的科学论文的标题、摘要和引用。该数据集可用于训练嵌入模型,特别是Sentence Transformer模型。数据集包含三个子集:title-abstract-pair、title-citation-pair和abstract-citation-pair,每个子集都有其特定的列和数据类型,并提供了示例和收集策略。
提供机构:
sentence-transformers
原始信息汇总
数据集概述
数据集名称
- S2ORC
语言和多语言性
- 语言: 英语
- 多语言性: 单语种
大小分类
- 大小: 100M<n<1B
任务分类
- 任务: 特征提取, 句子相似度
数据集配置
abstract-citation-pair 配置
- 特征:
- abstract: 字符串类型
- citation: 字符串类型
- 分割:
- train: 39567485个样本, 92216608962字节
- 下载大小: 54303161925字节
- 数据集大小: 92216608962字节
title-abstract-pair 配置
- 特征:
- title: 字符串类型
- abstract: 字符串类型
- 分割:
- train: 41769185个样本, 30708996393字节
- 下载大小: 19187786420字节
- 数据集大小: 30708996393字节
title-citation-pair 配置
- 特征:
- title: 字符串类型
- citation: 字符串类型
- 分割:
- train: 51030086个样本, 9567159942字节
- 下载大小: 7054217221字节
- 数据集大小: 9567159942字节
默认配置
- 默认配置:
title-abstract-pair
数据集子集
title-abstract-pair 子集
- 列: "title", "abstract"
- 列类型: 字符串, 字符串
- 收集策略: 从embedding-training-data读取S2ORC标题-摘要数据集
- 去重: 否
title-citation-pair 子集
- 列: "title", "citation"
- 列类型: 字符串, 字符串
- 收集策略: 从embedding-training-data读取S2ORC标题-引用数据集, 每篇标题与首个引用作为样本
- 去重: 否
abstract-citation-pair 子集
- 列: "abstract", "citation"
- 列类型: 字符串, 字符串
- 收集策略: 从embedding-training-data读取S2ORC摘要-引用数据集, 每篇引用与首个摘要作为样本
- 去重: 否



