five

tum-nlp/span-similarity-dataset

收藏
Hugging Face2026-03-01 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/tum-nlp/span-similarity-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Span Similarity Dataset (SSD)专注于可解释的文本相似性,包含成对的句子,并标注了语义上等效和不同的部分。数据集仅包含英文文本,分为训练集、评估集和测试集,每个集都提供了四个列的TSV文件。数据集的创建基于CANNOT Dataset的子集,注释过程涉及半自动化的LLM使用,并进行了手动审查和修正。数据集统计了句子对、跨度对、标注为不同或等效的跨度和句子对的数量,以及平均句子长度、跨度长度和每个句子的跨度数量。数据集采用CC BY-SA 4.0许可,并接受通过项目仓库的贡献。

Span Similarity Dataset (SSD)专注于可解释的文本相似性,包含成对的句子,并标注了语义上等效和不同的部分。数据集仅包含英文文本,分为训练集、评估集和测试集,每个集都提供了四个列的TSV文件。数据集的创建基于CANNOT Dataset的子集,注释过程涉及半自动化的LLM使用,并进行了手动审查和修正。数据集统计了句子对、跨度对、标注为不同或等效的跨度和句子对的数量,以及平均句子长度、跨度长度和每个句子的跨度数量。数据集采用CC BY-SA 4.0许可,并接受通过项目仓库的贡献。
提供机构:
tum-nlp
原始信息汇总

Span Similarity Dataset (SSD)

数据集描述

数据集概述

Span Similarity Dataset (SSD) 专注于可解释的文本相似度。它包含成对的句子,并带有指向语义等价和不同片段的注释。

语言

SSD 仅包含英语文本。

数据集结构

数据集分为 -train(800 个样本)、-eval(100 个样本)和 -test(100 个样本),均以 .tsv 文件格式提供,包含以下 4 列:

  • premise:第一个句子。
  • hypothesis:第二个句子,与前提非常相似,但有一个或多个句法和/或语义不同的片段。
  • span_similarity:每个注释片段对是否语义等价(1)或不同(0)。多个片段的值用逗号分隔,例如 0,1,0
  • sentence_similarity:前提和假设是否具有等价意义(1)或不(0)。

数据集可以通过以下代码轻松加载到 Pandas DataFrame 中:

Python import pandas as pd dataset = pd.read_csv(span_similarity_dataset_v0.9.1-train.tsv, sep= )

数据集创建

SSD 的前提来自 CANNOT Dataset 的一个随机子集。选择 CANNOT Dataset 的原因是其发布在宽松的许可(CC BY-SA 4.0)下,并且其前提句子可以直接用于我们的目的,无需进一步处理,只需确保没有重复的句子。

注释过程

注释的主要步骤包括:

  1. 取前提并更改一个或多个单词片段,产生假设。修改的片段可以与原始片段在意义上等价或不同。
  2. 用片段注释标记包围每个修改的片段。在我们的例子中,{{ 表示片段的开始,}} 表示结束。
  3. 1 注释每个前提-假设片段对是否等价,否则用 0
  4. 注释前提-假设对是否在句子级别上等价(1)或不(0)。

注释是通过使用 LLM 进行半自动方式完成的,通过手动设计的提示。在我们的例子中,我们使用了 ChatGPT(GPT-3.5 后端在 2023 年 11 月至 2024 年 4 月之间使用)。这大大减少了注释时间和努力,因为模型被提示同时替换片段并自行确定片段标签。然而,注释并不总是正确的,因此所有样本都经过手动审查和必要的更正,然后添加到数据集中。

确定片段的边界是一个复杂的问题,可能受到不同注释者主观考虑的影响。在我们的例子中,我们没有遵循严格的指导方针,但我们确实尝试在片段中包含整个句法/语义实体。例如,在以下对中:

  • There is a corner lighthouse tower.
  • There is a rounded lighthouse tower.

我们注释了片段 {{a corner lighthouse tower}}{{a rounded lighthouse tower}}。这样做的原因是我们希望基于 SSD 的下游解决方案能够意识到语义实体。由于我们的数据集简单,一个简单的做法是注释前提和假设之间任何不同的单词。我们的注释模式防止了这种情况。

数据集统计

Train Eval. Test
Sentence pairs 800 100 100
Span pairs 1058 120 118
Spans annotated as dissimilar (0) 528 60 60
Spans annotated as equivalent (1) 530 60 58
Sentence pairs annotated as dissimilar (0) 466 53 52
Sentence pairs annotated as equivalent (1) 334 47 48
Average sentence length in words 10.76 10.37 11.02
Average span length in words 3.88 3.88 4.27
Average number of spans per sentence 1.32 1.20 1.18

附加信息

许可信息

SSD 数据集在 CC BY-SA 4.0 许可下发布。

贡献

可以通过 项目仓库 提交对数据集的贡献。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作