nuvocare/WikiMedical_sentence_similarity
收藏Hugging Face2023-10-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nuvocare/WikiMedical_sentence_similarity
下载链接
链接失效反馈官方服务:
资源简介:
WikiMedical_sentence_similarity是一个基于[此数据集](https://huggingface.co/datasets/gamino/wiki_medical_terms)改编并可直接使用的句子相似度数据集。预处理过程包括三个步骤:首先,每个文本被分割成256个标记的句子(使用nltk分词器);其次,每个句子与一个正例配对,如果找到的话,并与一个负例配对,负例是从整个数据集中随机抽取的;最后,训练集和测试集的比例为70%/30%。
提供机构:
nuvocare
原始信息汇总
数据集卡片 "WikiMedical_sentence_similarity"
数据集概述
WikiMedical_sentence_similarity 是一个基于 this dataset 改编的、即用型的句子相似度数据集。
数据预处理步骤
- 每个文本被分割成256个令牌的句子(使用nltk分词器)。
- 每个句子与找到的正样本配对,如果没有找到正样本,则与负样本配对。负样本是从整个数据集中随机抽取的。
- 训练集和测试集的划分比例为70%/30%。
数据集配置
- 默认配置
- 数据文件
- 训练集:路径为
data/train-* - 测试集:路径为
data/test-*
- 训练集:路径为
- 数据文件
数据集信息
-
特征
text1:字符串类型text2:字符串类型label:类别标签,包含两个类别:-1和1
-
数据划分
- 训练集
- 字节数:150266647.47592032
- 样本数:50712
- 测试集
- 字节数:64403801.52407967
- 样本数:21735
- 训练集
-
数据集大小
- 下载大小:129675237
- 数据集大小:214670449.0



