cheafdevo56/InfluentialTriplets1Percent
收藏Hugging Face2023-12-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cheafdevo56/InfluentialTriplets1Percent
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含三个主要特征:query、pos和neg。每个特征下包含多个子特征,如abstract(摘要)、corpus_id(语料库ID)、title(标题)等。数据集分为训练集和验证集,训练集包含45000个样本,验证集包含5000个样本。数据集的下载大小为115821068字节,总大小为192618117.0字节。
该数据集包含三个主要特征:query、pos和neg。每个特征下包含多个子特征,如abstract(摘要)、corpus_id(语料库ID)、title(标题)等。数据集分为训练集和验证集,训练集包含45000个样本,验证集包含5000个样本。数据集的下载大小为115821068字节,总大小为192618117.0字节。
提供机构:
cheafdevo56
原始信息汇总
数据集概述
数据集特征
- query
- abstract: 字符串类型
- corpus_id: 64位整数类型
- title: 字符串类型
- pos
- abstract: 字符串类型
- corpus_id: 64位整数类型
- title: 字符串类型
- neg
- abstract: 字符串类型
- corpus_id: 64位整数类型
- score: 64位整数类型
- title: 字符串类型
数据集分割
- train
- 字节数: 173356305.3
- 样本数: 45000
- validation
- 字节数: 19261811.7
- 样本数: 5000
数据集大小
- 下载大小: 115821068
- 数据集大小: 192618117.0
配置
- default
- train
- 路径: data/train-*
- validation
- 路径: data/validation-*
- train
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个文本三元组数据集,包含50,000行数据,格式为parquet,分为45k行训练集和5k行验证集。它由三列组成(query, pos, neg),每列存储抽象文本,适用于自然语言处理任务,如对比学习或信息检索,具有中等规模且结构化的特点。
以上内容由遇见数据集搜集并总结生成



