five

xinyuez/qqp|自然语言处理数据集|问答对匹配数据集

收藏
hugging_face2024-05-16 更新2024-06-12 收录
自然语言处理
问答对匹配
下载链接:
https://hf-mirror.com/datasets/xinyuez/qqp
下载链接
链接失效反馈
资源简介:
该数据集包含两个问题字段(question1和question2),类型为字符串,以及一个标签字段(label),类型为整数。数据集分为训练集、验证集和测试集,分别有323420、40428和40428个样本。训练集大小为43939950字节,验证集和测试集大小分别为5503609和5493911字节。数据集总下载大小为35064603字节,总大小为54937470字节。
提供机构:
xinyuez
原始信息汇总

数据集概述

特征信息

  • question1: 数据类型为字符串(string)
  • question2: 数据类型为字符串(string)
  • label: 数据类型为64位整数(int64)

数据分割

  • 训练集(train):
    • 字节数: 43939950
    • 样本数: 323420
  • 验证集(validation):
    • 字节数: 5503609
    • 样本数: 40428
  • 测试集(test):
    • 字节数: 5493911
    • 样本数: 40428

数据集大小

  • 下载大小: 35064603 字节
  • 数据集大小: 54937470 字节

配置信息

  • 配置名称: default
  • 数据文件路径:
    • 训练集: data/train-*
    • 验证集: data/validation-*
    • 测试集: data/test-*
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。

hugging_face 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录