pszemraj/synthetic-text-similarity

Name: pszemraj/synthetic-text-similarity
Creator: pszemraj
Published: 2024-03-20 21:08:58
License: 暂无描述

Hugging Face2024-03-20 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/pszemraj/synthetic-text-similarity

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在评估和训练模型在较长上下文/示例中的文本相似性任务，包含文档对及其相似性分数，表示文档在语义空间中的接近程度。文档来自多种来源，如电子邮件、办公文档和合成文档。数据集通过分层采样基于分数分布百分位数进行细化。特定版本v1的标签进行了归一化处理，使得最小值为0，最大值为1，并提供了标签分布的统计信息。

提供机构：

pszemraj

原始信息汇总

合成文本相似度数据集

数据集概述

该数据集旨在评估和训练模型在长上下文文本相似度任务上的表现，不同于传统的句子相似度数据集（如“Bob likes frogs.”）。数据集包含文档对及其相似度分数，表示文档在语义空间中的接近程度。

数据集版本

数据集包含以下版本：

default
munchkin
v1.0
v2.0

数据集配置

每个版本的配置信息如下：

default

特征：
- text1: 字符串
- text2: 字符串
- label: 浮点数 (float64)
分割：
- train: 2994727773.0 字节，100000 个样本
下载大小：1736789172 字节
数据集大小：2994727773.0 字节

munchkin

特征：
- text1: 字符串
- text2: 字符串
- label: 浮点数 (float64)
分割：
- train: 269175133.7086 字节，8890 个样本
下载大小：7900840 字节
数据集大小：269175133.7086 字节

v1.0

特征：
- text1: 字符串
- text2: 字符串
- label: 浮点数 (float32)
分割：
- train: 3703073013 字节，100000 个样本
下载大小：1754961910 字节
数据集大小：3703073013 字节

v2.0

特征：
- text1: 字符串
- text2: 字符串
- label: 浮点数 (float32)
分割：
- train: 2012808881 字节，100000 个样本
下载大小：1064753991 字节
数据集大小：2012808881 字节

数据集描述

对于每个版本的数据集，首先计算所有唯一文档的嵌入，然后计算成对余弦相似度。数据集通过基于分数分布百分位的分层抽样进行细化。

数据来源

文档来自多种来源，包括：

aeslc（电子邮件）
govdocs1（文本形式的办公文档）
cosmopedia（合成文档）等

v1.0 特定信息

标签归一化

在 v1.0 版本中，分数通过简单的最小/最大缩放进行归一化，使得最小值为 0，最大值为 1。

标签分布

label count 100000.000000 mean 0.640396 std 0.130544 min 0.000000 25% 0.581902 50% 0.669433 75% 0.726319 max 1.000000

样本

数据集中的样本被截断为 100 个字符，以展示不同相似度级别的文档对。每个对都附有一个 label，表示它们在数据集中归一化后的余弦距离。

相似对的示例：

{label: 0.8901845812797546, text1: "So just to make sure that you dont get disappointed, I added this ...", text2: "So for the next few lectures, were going to be looking at ..."}

不太相似对的示例：

{label: 0.42521122097969055, text1: Tag Archives: pencils Doctor Who: A Desperately Confusing Venture..., text2: /*

CRF1d encoder (routines for training).

5,000+

优质数据集

54 个

任务类型

进入经典数据集