five

sentence-transformers/s2orc

收藏
Hugging Face2024-05-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/s2orc
下载链接
链接失效反馈
官方服务:
资源简介:
S2ORC数据集包含来自Semantic Scholar开放研究语料库(S2ORC)的科学论文的标题、摘要和引用。该数据集可用于训练嵌入模型,特别是Sentence Transformer模型。数据集包含三个子集:title-abstract-pair、title-citation-pair和abstract-citation-pair,每个子集都有其特定的列和数据类型,并提供了示例和收集策略。

S2ORC数据集包含来自Semantic Scholar开放研究语料库(S2ORC)的科学论文的标题、摘要和引用。该数据集可用于训练嵌入模型,特别是Sentence Transformer模型。数据集包含三个子集:title-abstract-pair、title-citation-pair和abstract-citation-pair,每个子集都有其特定的列和数据类型,并提供了示例和收集策略。
提供机构:
sentence-transformers
原始信息汇总

数据集概述

数据集名称

  • S2ORC

语言和多语言性

  • 语言: 英语
  • 多语言性: 单语种

大小分类

  • 大小: 100M<n<1B

任务分类

  • 任务: 特征提取, 句子相似度

数据集配置

abstract-citation-pair 配置
  • 特征:
    • abstract: 字符串类型
    • citation: 字符串类型
  • 分割:
    • train: 39567485个样本, 92216608962字节
  • 下载大小: 54303161925字节
  • 数据集大小: 92216608962字节
title-abstract-pair 配置
  • 特征:
    • title: 字符串类型
    • abstract: 字符串类型
  • 分割:
    • train: 41769185个样本, 30708996393字节
  • 下载大小: 19187786420字节
  • 数据集大小: 30708996393字节
title-citation-pair 配置
  • 特征:
    • title: 字符串类型
    • citation: 字符串类型
  • 分割:
    • train: 51030086个样本, 9567159942字节
  • 下载大小: 7054217221字节
  • 数据集大小: 9567159942字节

默认配置

  • 默认配置: title-abstract-pair

数据集子集

title-abstract-pair 子集
  • : "title", "abstract"
  • 列类型: 字符串, 字符串
  • 收集策略: 从embedding-training-data读取S2ORC标题-摘要数据集
  • 去重: 否
title-citation-pair 子集
  • : "title", "citation"
  • 列类型: 字符串, 字符串
  • 收集策略: 从embedding-training-data读取S2ORC标题-引用数据集, 每篇标题与首个引用作为样本
  • 去重: 否
abstract-citation-pair 子集
  • : "abstract", "citation"
  • 列类型: 字符串, 字符串
  • 收集策略: 从embedding-training-data读取S2ORC摘要-引用数据集, 每篇引用与首个摘要作为样本
  • 去重: 否
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作