embedding-data/QQP_triplets
收藏Hugging Face2022-08-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/embedding-data/QQP_triplets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集为训练和测试语义等价模型提供了机会,数据以三元组(anchor, positive, negative)的形式组织。数据集支持的任务包括句子相似性和语义搜索。数据集的语言为英语。每个数据实例是一个包含三个键(query, pos, neg)的字典,分别表示锚点句子、正例句子和负例句子列表。数据集的使用示例和加载方式也在README中进行了说明。此外,README还提到了数据集的一些局限性,如数据不平衡、负例来源、数据分布不代表性以及标签噪声等问题。
提供机构:
embedding-data
原始信息汇总
数据集概述:QQP_triplets
数据集描述
数据集总结
- 名称:QQP_triplets
- 目的:用于训练和测试语义等价模型,基于Quora的实际数据。
- 结构:数据组织为三元组(锚点,正例,负例)。
支持的任务
- 任务:句子相似度分类
- 应用:训练Sentence Transformers模型,适用于语义搜索和句子相似度比较。
语言
- 语言:英语
数据集结构
数据实例
- 格式:每个实例为一个字典,包含三个键(query, pos, neg),每个键包含一个列表(三元组)。
- 内容:query键包含锚点句子,pos键包含正例句子,neg键包含一系列负例句子。
数据字段
- 字段:query, pos, neg
数据分割
- 分割:未详细说明
使用示例
- 加载方式:使用
datasets库加载数据集。 - 数据格式:加载为
DatasetDict类型,包含训练数据。
数据集创建
数据收集与规范化
- 信息:未提供详细信息。
源数据
- 信息:未提供详细信息。
注释
- 信息:未提供详细信息。
个人和敏感信息
- 信息:未提供详细信息。
使用数据的考虑
数据集的社会影响
- 信息:未提供详细信息。
偏见讨论
- 信息:未提供详细信息。
其他已知限制
- 限制:
- 原始采样方法导致数据集不平衡。
- 负例包含“相关问题”,这些并非语义等价。
- 数据集的问题分布不代表Quora上的问题分布。
- 地面实况标签存在一定噪声。
附加信息
数据集管理者
- 信息:未提供详细信息。
许可信息
- 许可:MIT
引用信息
- 信息:未提供详细信息。
贡献者
- 贡献者:Kornél Csernai, Nikhil Dandekar, Shankar Iyer



