FarSick

github2022-12-06 更新2024-05-31 收录

下载链接：

https://github.com/mut-deep/FarSick

下载链接

链接失效反馈

官方服务：

资源简介：

FarSick是第一个相对大规模的波斯语语义文本相似性和自然语言推理数据集，包含约10,000对英文句子。每对句子都标注了相关性和语义含义，以及两个元素之间的蕴涵关系。该数据集是通过翻译和编辑SICK数据集的句子收集的。

FarSick represents the inaugural relatively large-scale Persian dataset for semantic textual similarity and natural language inference, encompassing approximately 10,000 pairs of English sentences. Each sentence pair is annotated with relevance and semantic meaning, along with the entailment relationship between the two elements. This dataset was compiled through the translation and editing of sentences from the SICK dataset.

创建时间：

2022-07-31

原始信息汇总

数据集概述

数据集名称

FarSick: A Persian Semantic Textual Similarity And Natural Language Inference Dataset

数据集描述

FarSick是首个针对波斯语的相对大规模的语义文本相似性和自然语言推理数据集。该数据集包含约10,000对英文句子，每对句子都进行了相关性和语义意义的标注，以及两个元素之间的蕴涵关系。

数据集来源

数据集是通过翻译和编辑SICK数据集的句子收集而成。

文件结构

格式：制表符分隔的文本文件

字段信息

pair_ID: 句子对ID
sentence_A: 句子A
sentence_B: 句子B
entailment_label: 文本蕴涵金标（NEUTRAL, ENTAILMENT, 或 CONTRADICTION）
relatedness_score: 语义相关性金分（1-5连续尺度）
entailment_AB: A-B顺序的蕴涵（A_neutral_B, A_entails_B, 或 A_contradicts_B）
entailment_BA: B-A顺序的蕴涵（B_neutral_A, B_entails_A, 或 B_contradicts_A）
sentence_A_dataset: 原始句子A提取的数据集（FLICKR vs. SEMEVAL）
sentence_B_dataset: 原始句子B提取的数据集（FLICKR vs. SEMEVAL）
SemEval_set: SemEval 2014 Task 1中的句子对集合（TRIAL, TRAIN, 或 TEST）
binary_label: 语义金分（0 vs. 1）

统计信息

训练对: 4439
试验对: 495
测试对: 4906
总对数: 9840
训练标签: {entailment: 1274, neutral: 2524, contradiction: 641}, {0: 1065, 1: 3374}
试验标签: {entailment: 143, neutral: 281, contradiction: 71}, {0: 105, 1: 390}
测试标签: {entailment: 1404, neutral: 2790, contradiction: 712}, {0: 1126, 1: 3780}
训练令牌数: 3384
试验令牌数: 1264
测试令牌数: 3360

搜集汇总

数据集介绍

构建方式

FarSick数据集的构建基于对SICK数据集的翻译与编辑，旨在为波斯语提供语义文本相似性和自然语言推理任务的支持。该数据集包含约10,000对英文句子，经过翻译后形成波斯语句子对，并标注了句子间的语义相关性和蕴含关系。数据集的构建过程严格遵循了语义标注的标准，确保了数据的准确性和一致性。

使用方法

FarSick数据集以制表符分隔的文本文件形式提供，研究者可通过读取文件中的字段（如句子对、蕴含标签、语义相关度评分等）进行模型训练与评估。该数据集适用于波斯语的语义相似性计算、自然语言推理等任务。使用前需引用相关论文，并遵循数据集的划分（训练集、验证集、测试集）进行实验设计，以确保研究结果的科学性和可复现性。

背景与挑战

背景概述

FarSick数据集由Zahra Ghasemi和Mohammad Ali Keyvanrad于2021年创建，旨在为波斯语的自然语言处理任务提供支持，特别是语义文本相似性（STS）和自然语言推理（NLI）任务。该数据集是波斯语领域首个相对大规模的STS数据集，包含约10,000对句子，这些句子对通过翻译和编辑SICK数据集的句子生成。FarSick的发布填补了波斯语在语义文本相似性和自然语言推理任务上的数据空白，为波斯语的自然语言处理研究提供了重要的资源。该数据集在2021年的国际计算机工程与知识会议（ICCKE）上首次亮相，并迅速成为波斯语NLP研究中的重要参考。

当前挑战

FarSick数据集在解决波斯语语义文本相似性和自然语言推理任务时面临多重挑战。首先，波斯语作为一种低资源语言，其语法结构和词汇丰富性与英语等主流语言存在显著差异，这导致在翻译和标注过程中需要克服语言特性带来的复杂性。其次，数据集的构建依赖于SICK数据集的翻译和编辑，这一过程不仅需要确保语义的准确传递，还需处理波斯语特有的语言现象，如词序和词形变化。此外，数据集的标注质量直接影响到模型的训练效果，如何在有限的资源下确保标注的一致性和准确性，是构建过程中不可忽视的挑战。最后，FarSick的应用场景主要集中在波斯语的自然语言处理任务中，如何将其推广到更广泛的多语言环境中，仍需进一步探索。

常用场景

经典使用场景

FarSick数据集在波斯语自然语言处理领域中被广泛用于语义文本相似性和自然语言推理任务。研究者利用该数据集训练和评估模型，以理解和生成波斯语句子之间的语义关系。通过提供丰富的标注数据，FarSick为波斯语NLP模型的开发提供了坚实的基础。

解决学术问题

FarSick数据集解决了波斯语自然语言处理中语义文本相似性和自然语言推理的标注数据稀缺问题。通过翻译和编辑SICK数据集，FarSick为研究者提供了高质量的波斯语语料，支持了波斯语NLP模型的训练和评估，推动了该领域的研究进展。

实际应用

在实际应用中，FarSick数据集被用于开发波斯语搜索引擎、聊天机器人和自动翻译系统。这些系统依赖于对波斯语句子语义关系的准确理解，FarSick提供的标注数据使得这些应用能够更好地处理波斯语文本，提升用户体验。

数据集最近研究