five

pszemraj/synthetic-text-similarity

收藏
Hugging Face2024-03-20 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/pszemraj/synthetic-text-similarity
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集旨在评估和训练模型在较长上下文/示例中的文本相似性任务,包含文档对及其相似性分数,表示文档在语义空间中的接近程度。文档来自多种来源,如电子邮件、办公文档和合成文档。数据集通过分层采样基于分数分布百分位数进行细化。特定版本v1的标签进行了归一化处理,使得最小值为0,最大值为1,并提供了标签分布的统计信息。

该数据集旨在评估和训练模型在较长上下文/示例中的文本相似性任务,包含文档对及其相似性分数,表示文档在语义空间中的接近程度。文档来自多种来源,如电子邮件、办公文档和合成文档。数据集通过分层采样基于分数分布百分位数进行细化。特定版本v1的标签进行了归一化处理,使得最小值为0,最大值为1,并提供了标签分布的统计信息。
提供机构:
pszemraj
原始信息汇总

合成文本相似度数据集

数据集概述

该数据集旨在评估和训练模型在长上下文文本相似度任务上的表现,不同于传统的句子相似度数据集(如“Bob likes frogs.”)。数据集包含文档对及其相似度分数,表示文档在语义空间中的接近程度。

数据集版本

数据集包含以下版本:

  • default
  • munchkin
  • v1.0
  • v2.0

数据集配置

每个版本的配置信息如下:

default

  • 特征
    • text1: 字符串
    • text2: 字符串
    • label: 浮点数 (float64)
  • 分割
    • train: 2994727773.0 字节,100000 个样本
  • 下载大小:1736789172 字节
  • 数据集大小:2994727773.0 字节

munchkin

  • 特征
    • text1: 字符串
    • text2: 字符串
    • label: 浮点数 (float64)
  • 分割
    • train: 269175133.7086 字节,8890 个样本
  • 下载大小:7900840 字节
  • 数据集大小:269175133.7086 字节

v1.0

  • 特征
    • text1: 字符串
    • text2: 字符串
    • label: 浮点数 (float32)
  • 分割
    • train: 3703073013 字节,100000 个样本
  • 下载大小:1754961910 字节
  • 数据集大小:3703073013 字节

v2.0

  • 特征
    • text1: 字符串
    • text2: 字符串
    • label: 浮点数 (float32)
  • 分割
    • train: 2012808881 字节,100000 个样本
  • 下载大小:1064753991 字节
  • 数据集大小:2012808881 字节

数据集描述

对于每个版本的数据集,首先计算所有唯一文档的嵌入,然后计算成对余弦相似度。数据集通过基于分数分布百分位的分层抽样进行细化。

数据来源

文档来自多种来源,包括:

  • aeslc(电子邮件)
  • govdocs1(文本形式的办公文档)
  • cosmopedia(合成文档)等

v1.0 特定信息

标签归一化

在 v1.0 版本中,分数通过简单的最小/最大缩放进行归一化,使得最小值为 0,最大值为 1。

标签分布

label count 100000.000000 mean 0.640396 std 0.130544 min 0.000000 25% 0.581902 50% 0.669433 75% 0.726319 max 1.000000

样本

数据集中的样本被截断为 100 个字符,以展示不同相似度级别的文档对。每个对都附有一个 label,表示它们在数据集中归一化后的余弦距离。

相似对的示例:

{label: 0.8901845812797546, text1: "So just to make sure that you dont get disappointed, I added this ...", text2: "So for the next few lectures, were going to be looking at ..."}

不太相似对的示例:

{label: 0.42521122097969055, text1: Tag Archives: pencils Doctor Who: A Desperately Confusing Venture..., text2: /*

  • CRF1d encoder (routines for training).
  • Copyright 2007-2010, ...}
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作