sentence-transformers/specter
收藏Hugging Face2024-04-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/specter
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是来自科学出版物Specter的标题相关-不相关三元组的集合。该数据集可以直接与Sentence Transformers一起使用来训练嵌入模型。数据集包含两个子集:`triplet`子集和`pair`子集。`triplet`子集包含anchor、positive和negative三列,列类型均为字符串,示例展示了标题之间的相关和不相关关系,收集策略是从Specter数据集中读取并进行去重。`pair`子集包含anchor和positive两列,列类型均为字符串,示例展示了标题之间的相关关系,收集策略是从Specter数据集中仅读取标题和相关标题并进行去重。
该数据集是来自科学出版物Specter的标题相关-不相关三元组的集合。该数据集可以直接与Sentence Transformers一起使用来训练嵌入模型。数据集包含两个子集:`triplet`子集和`pair`子集。`triplet`子集包含anchor、positive和negative三列,列类型均为字符串,示例展示了标题之间的相关和不相关关系,收集策略是从Specter数据集中读取并进行去重。`pair`子集包含anchor和positive两列,列类型均为字符串,示例展示了标题之间的相关关系,收集策略是从Specter数据集中仅读取标题和相关标题并进行去重。
提供机构:
sentence-transformers
原始信息汇总
数据集概述
数据集名称
Specter
语言
- 英语
多语言性
- 单语种
数据集大小分类
- 100K<n<1M
任务分类
- 特征提取
- 句子相似度
标签
- sentence-transformers
数据集配置
pair 配置
- 特征:
- 名称: anchor
- 数据类型: string
- 名称: positive
- 数据类型: string
- 名称: anchor
- 分割:
- 名称: train
- 字节数: 55252049
- 样本数: 380142
- 名称: train
- 下载大小: 24217449
- 数据集大小: 55252049
triplet 配置
- 特征:
- 名称: anchor
- 数据类型: string
- 名称: positive
- 数据类型: string
- 名称: negative
- 数据类型: string
- 名称: anchor
- 分割:
- 名称: train
- 字节数: 152814049
- 样本数: 684098
- 名称: train
- 下载大小: 62182004
- 数据集大小: 152814049
数据文件配置
pair 配置
- 数据文件:
- 分割: train
- 路径: pair/train-*
- 分割: train
triplet 配置
- 数据文件:
- 分割: train
- 路径: triplet/train-*
- 分割: train
数据集子集
triplet 子集
-
列: "anchor", "positive", "negative"
-
列类型:
str,str,str -
示例: python { anchor: "Integrating childrens contributions in the interaction design process", positive: Designing for or designing with? Informant design for interactive learning environments, negative: Power Operation in ISD: Technological Frames Perspectives., }
-
收集策略: 从 embedding-training-data 读取 Specter 数据集,然后进行去重。
-
去重: 是
pair 子集
-
列: "anchor", "positive"
-
列类型:
str,str -
示例: python { anchor: Time-dependent trajectory regression on road networks via multi-task learning, positive: Convex multi-task feature learning, }
-
收集策略: 从 embedding-training-data 读取 Specter 数据集,仅取标题和相关标题,然后进行去重。
-
去重: 是



