embedding-data/QQP_triplets

Name: embedding-data/QQP_triplets
Creator: embedding-data
Published: 2022-08-02 03:14:14
License: 暂无描述

Hugging Face2022-08-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/embedding-data/QQP_triplets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集为训练和测试语义等价模型提供了机会，数据以三元组（anchor, positive, negative）的形式组织。数据集支持的任务包括句子相似性和语义搜索。数据集的语言为英语。每个数据实例是一个包含三个键（query, pos, neg）的字典，分别表示锚点句子、正例句子和负例句子列表。数据集的使用示例和加载方式也在README中进行了说明。此外，README还提到了数据集的一些局限性，如数据不平衡、负例来源、数据分布不代表性以及标签噪声等问题。

提供机构：

embedding-data

原始信息汇总

数据集概述：QQP_triplets

数据集描述

数据集总结

名称：QQP_triplets
目的：用于训练和测试语义等价模型，基于Quora的实际数据。
结构：数据组织为三元组（锚点，正例，负例）。

支持的任务

任务：句子相似度分类
应用：训练Sentence Transformers模型，适用于语义搜索和句子相似度比较。

语言

语言：英语

数据集结构

数据实例

格式：每个实例为一个字典，包含三个键（query, pos, neg），每个键包含一个列表（三元组）。
内容：query键包含锚点句子，pos键包含正例句子，neg键包含一系列负例句子。

数据字段

字段：query, pos, neg

数据分割

分割：未详细说明

使用示例

加载方式：使用datasets库加载数据集。
数据格式：加载为DatasetDict类型，包含训练数据。

数据集创建

数据收集与规范化

信息：未提供详细信息。

源数据

信息：未提供详细信息。

注释

信息：未提供详细信息。

个人和敏感信息

信息：未提供详细信息。

使用数据的考虑

数据集的社会影响

信息：未提供详细信息。

偏见讨论

信息：未提供详细信息。

其他已知限制

限制：
- 原始采样方法导致数据集不平衡。
- 负例包含“相关问题”，这些并非语义等价。
- 数据集的问题分布不代表Quora上的问题分布。
- 地面实况标签存在一定噪声。

附加信息

数据集管理者

信息：未提供详细信息。

许可信息

许可：MIT

引用信息

信息：未提供详细信息。

贡献者

贡献者：Kornél Csernai, Nikhil Dandekar, Shankar Iyer

5,000+

优质数据集

54 个

任务类型

进入经典数据集