pszemraj/synthetic-text-similarity
收藏合成文本相似度数据集
数据集概述
该数据集旨在评估和训练模型在长上下文文本相似度任务上的表现,不同于传统的句子相似度数据集(如“Bob likes frogs.”)。数据集包含文档对及其相似度分数,表示文档在语义空间中的接近程度。
数据集版本
数据集包含以下版本:
- default
- munchkin
- v1.0
- v2.0
数据集配置
每个版本的配置信息如下:
default
- 特征:
text1: 字符串text2: 字符串label: 浮点数 (float64)
- 分割:
train: 2994727773.0 字节,100000 个样本
- 下载大小:1736789172 字节
- 数据集大小:2994727773.0 字节
munchkin
- 特征:
text1: 字符串text2: 字符串label: 浮点数 (float64)
- 分割:
train: 269175133.7086 字节,8890 个样本
- 下载大小:7900840 字节
- 数据集大小:269175133.7086 字节
v1.0
- 特征:
text1: 字符串text2: 字符串label: 浮点数 (float32)
- 分割:
train: 3703073013 字节,100000 个样本
- 下载大小:1754961910 字节
- 数据集大小:3703073013 字节
v2.0
- 特征:
text1: 字符串text2: 字符串label: 浮点数 (float32)
- 分割:
train: 2012808881 字节,100000 个样本
- 下载大小:1064753991 字节
- 数据集大小:2012808881 字节
数据集描述
对于每个版本的数据集,首先计算所有唯一文档的嵌入,然后计算成对余弦相似度。数据集通过基于分数分布百分位的分层抽样进行细化。
数据来源
文档来自多种来源,包括:
aeslc(电子邮件)- govdocs1(文本形式的办公文档)
- cosmopedia(合成文档)等
v1.0 特定信息
标签归一化
在 v1.0 版本中,分数通过简单的最小/最大缩放进行归一化,使得最小值为 0,最大值为 1。
标签分布
label count 100000.000000 mean 0.640396 std 0.130544 min 0.000000 25% 0.581902 50% 0.669433 75% 0.726319 max 1.000000
样本
数据集中的样本被截断为 100 个字符,以展示不同相似度级别的文档对。每个对都附有一个 label,表示它们在数据集中归一化后的余弦距离。
相似对的示例:
{label: 0.8901845812797546, text1: "So just to make sure that you dont get disappointed, I added this ...", text2: "So for the next few lectures, were going to be looking at ..."}
不太相似对的示例:
{label: 0.42521122097969055, text1: Tag Archives: pencils Doctor Who: A Desperately Confusing Venture..., text2: /*
- CRF1d encoder (routines for training).
- Copyright 2007-2010, ...}



