nikhilchigali/wikianswers_small

Name: nikhilchigali/wikianswers_small
Creator: nikhilchigali
Published: 2024-03-30 19:00:11
License: 暂无描述

Hugging Face2024-03-30 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/nikhilchigali/wikianswers_small

下载链接

链接失效反馈

官方服务：

资源简介：

`nikhilchigali/wikianswers_small`是`embedding-data/WikiAnswers`数据集的一个子集，仅包含原始数据集0.13%的行（集合）。这些句子集合已被拆分为单独的条目，并带有相应的聚类ID，以标识来自同一集合的句子。每个示例包含一个句子及其聚类ID，同一聚类中的句子是彼此的释义。数据集的语言为英语，适用于句子相似性任务。

提供机构：

nikhilchigali

原始信息汇总

数据集概述

数据集名称

nikhilchigali/wikianswers_small

数据集描述

这是一个从embedding-data/WikiAnswers数据集中提取的子集，包含原数据集0.13%的行数。该数据集将句子集合解构成单独的项，每个项包含一个句子及其对应的集群ID，用于标识来自同一集合的句子。

数据集特征

sentence: 字符串类型
cluster: 整数类型（int64）

数据集结构

每个数据集示例包含一个句子和其对应的集群ID。同一集群中的句子是彼此的同义句。

数据集大小

训练集: 990526个示例，占用59231273字节
下载大小: 22602562字节
数据集总大小: 59231273字节

语言

英语

任务类别

句子相似度

数据集使用示例

python from datasets import load_dataset dataset = load_dataset("nikhilchigali/wikianswers_small")

数据集加载格式

python DatasetDict({ train: Dataset({ features: [sentence, "cluster"], num_rows: N }) })

5,000+

优质数据集

54 个

任务类型

进入经典数据集