five

embedding-data/QQP_triplets

收藏
Hugging Face2022-08-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/embedding-data/QQP_triplets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集为训练和测试语义等价模型提供了机会,数据以三元组(anchor, positive, negative)的形式组织。数据集支持的任务包括句子相似性和语义搜索。数据集的语言为英语。每个数据实例是一个包含三个键(query, pos, neg)的字典,分别表示锚点句子、正例句子和负例句子列表。数据集的使用示例和加载方式也在README中进行了说明。此外,README还提到了数据集的一些局限性,如数据不平衡、负例来源、数据分布不代表性以及标签噪声等问题。
提供机构:
embedding-data
原始信息汇总

数据集概述:QQP_triplets

数据集描述

数据集总结

  • 名称:QQP_triplets
  • 目的:用于训练和测试语义等价模型,基于Quora的实际数据。
  • 结构:数据组织为三元组(锚点,正例,负例)。

支持的任务

  • 任务:句子相似度分类
  • 应用:训练Sentence Transformers模型,适用于语义搜索和句子相似度比较。

语言

  • 语言:英语

数据集结构

数据实例

  • 格式:每个实例为一个字典,包含三个键(query, pos, neg),每个键包含一个列表(三元组)。
  • 内容:query键包含锚点句子,pos键包含正例句子,neg键包含一系列负例句子。

数据字段

  • 字段:query, pos, neg

数据分割

  • 分割:未详细说明

使用示例

  • 加载方式:使用datasets库加载数据集。
  • 数据格式:加载为DatasetDict类型,包含训练数据。

数据集创建

数据收集与规范化

  • 信息:未提供详细信息。

源数据

  • 信息:未提供详细信息。

注释

  • 信息:未提供详细信息。

个人和敏感信息

  • 信息:未提供详细信息。

使用数据的考虑

数据集的社会影响

  • 信息:未提供详细信息。

偏见讨论

  • 信息:未提供详细信息。

其他已知限制

  • 限制
    • 原始采样方法导致数据集不平衡。
    • 负例包含“相关问题”,这些并非语义等价。
    • 数据集的问题分布不代表Quora上的问题分布。
    • 地面实况标签存在一定噪声。

附加信息

数据集管理者

  • 信息:未提供详细信息。

许可信息

  • 许可:MIT

引用信息

  • 信息:未提供详细信息。

贡献者

  • 贡献者:Kornél Csernai, Nikhil Dandekar, Shankar Iyer
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作