nuvocare/WikiMedical_sentence_similarity

Name: nuvocare/WikiMedical_sentence_similarity
Creator: nuvocare
Published: 2023-10-18 13:19:55
License: 暂无描述

Hugging Face2023-10-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nuvocare/WikiMedical_sentence_similarity

下载链接

链接失效反馈

官方服务：

资源简介：

WikiMedical_sentence_similarity是一个基于[此数据集](https://huggingface.co/datasets/gamino/wiki_medical_terms)改编并可直接使用的句子相似度数据集。预处理过程包括三个步骤：首先，每个文本被分割成256个标记的句子（使用nltk分词器）；其次，每个句子与一个正例配对，如果找到的话，并与一个负例配对，负例是从整个数据集中随机抽取的；最后，训练集和测试集的比例为70%/30%。

提供机构：

nuvocare

原始信息汇总

数据集卡片 "WikiMedical_sentence_similarity"

数据集概述

WikiMedical_sentence_similarity 是一个基于 this dataset 改编的、即用型的句子相似度数据集。

数据预处理步骤

每个文本被分割成256个令牌的句子（使用nltk分词器）。
每个句子与找到的正样本配对，如果没有找到正样本，则与负样本配对。负样本是从整个数据集中随机抽取的。
训练集和测试集的划分比例为70%/30%。

数据集配置

默认配置
- 数据文件
  - 训练集：路径为 data/train-*
  - 测试集：路径为 data/test-*

数据集信息

特征
- text1：字符串类型
- text2：字符串类型
- label：类别标签，包含两个类别：-1 和 1
数据划分
- 训练集
  - 字节数：150266647.47592032
  - 样本数：50712
- 测试集
  - 字节数：64403801.52407967
  - 样本数：21735
数据集大小
- 下载大小：129675237
- 数据集大小：214670449.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集