five

nuvocare/WikiMedical_sentence_similarity

收藏
Hugging Face2023-10-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nuvocare/WikiMedical_sentence_similarity
下载链接
链接失效反馈
官方服务:
资源简介:
WikiMedical_sentence_similarity是一个基于[此数据集](https://huggingface.co/datasets/gamino/wiki_medical_terms)改编并可直接使用的句子相似度数据集。预处理过程包括三个步骤:首先,每个文本被分割成256个标记的句子(使用nltk分词器);其次,每个句子与一个正例配对,如果找到的话,并与一个负例配对,负例是从整个数据集中随机抽取的;最后,训练集和测试集的比例为70%/30%。
提供机构:
nuvocare
原始信息汇总

数据集卡片 "WikiMedical_sentence_similarity"

数据集概述

WikiMedical_sentence_similarity 是一个基于 this dataset 改编的、即用型的句子相似度数据集。

数据预处理步骤

  1. 每个文本被分割成256个令牌的句子(使用nltk分词器)。
  2. 每个句子与找到的正样本配对,如果没有找到正样本,则与负样本配对。负样本是从整个数据集中随机抽取的。
  3. 训练集和测试集的划分比例为70%/30%。

数据集配置

  • 默认配置
    • 数据文件
      • 训练集:路径为 data/train-*
      • 测试集:路径为 data/test-*

数据集信息

  • 特征

    • text1:字符串类型
    • text2:字符串类型
    • label:类别标签,包含两个类别:-11
  • 数据划分

    • 训练集
      • 字节数:150266647.47592032
      • 样本数:50712
    • 测试集
      • 字节数:64403801.52407967
      • 样本数:21735
  • 数据集大小

    • 下载大小:129675237
    • 数据集大小:214670449.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作