Arabic-stsb

Hugging Face2024-06-19 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Omartificial-Intelligence-Space/Arabic-stsb

下载链接

链接失效反馈

官方服务：

资源简介：

Arabic STSB Structure是一个阿拉伯语版本的语义文本相似性基准数据集，包含从新闻标题、视频和图像标题以及自然语言推理数据中提取的句子对。每个句子对都由人工标注了一个1到5的相似度分数，并被标准化为0到1之间的值。数据集的收集策略是读取STSB数据集中的句子和分数，并将分数除以5。需要注意的是，翻译的句子可能不完全准确，且相似度分数已被标准化。

创建时间：

2024-06-08

原始信息汇总

数据集概述

基本信息

许可证: Apache 2.0
任务类别: 句子相似度
语言: 阿拉伯语
标签: sentence-transformers
数据量: 1K<n<10K

数据集描述

名称: Arabic STSB
来源: 从新闻标题、视频和图像字幕以及自然语言推理数据中抽取的句子对
标注: 每个句子对由人工标注相似度分数，范围从1到5，但在此版本中，分数被归一化到0到1之间

数据示例

python { "sentence1": "طائرة ستقلع", "sentence2": "طائرة جوية ستقلع", "score": 1.0 }

{ "sentence1": "رجل يعزف على ناي كبير", "sentence2": "رجل يعزف على الناي.", "score": 0.76 }

收集策略

从STSB数据集中读取句子和分数，并将分数除以5进行归一化
去重: 否

注意事项

翻译后的句子使用神经机器翻译生成，可能无法准确传达原意
相似度分数已归一化，原分数范围为1到5

引用

bibtex @dataset{nacar2024, author = {Omer Nacar}, title = {Arabic Matryoshka Embeddings Dataset - Arabic STSB}, year = 2024, url = {https://huggingface.co/datasets/Omartificial-Intelligence-Space/Arabic-stsb}, version = {1.0.0}, }

搜集汇总

数据集介绍

构建方式

Arabic-stsb数据集是基于语义文本相似性基准（STSB）的阿拉伯语版本，其构建方式主要依赖于从新闻标题、视频和图像字幕以及自然语言推理数据中提取的句子对。每个句子对由人工标注相似性分数，原始分数范围为1至5，但在该数据集中，相似性分数被归一化至0至1之间。数据集的构建过程中，句子对通过神经机器翻译生成，尽管翻译可能不完全准确，但确保了数据的多样性和广泛性。

特点

Arabic-stsb数据集的特点在于其专注于阿拉伯语的语义相似性评估，涵盖了多种文本来源，如新闻、视频和图像字幕等。每个句子对都经过人工标注，确保了数据的准确性和可靠性。此外，数据集的相似性分数经过归一化处理，便于直接应用于模型训练和评估。尽管翻译可能存在一定误差，但数据集仍为阿拉伯语自然语言处理任务提供了宝贵的资源。

使用方法

Arabic-stsb数据集适用于阿拉伯语语义相似性任务的模型训练和评估。用户可以通过加载数据集中的句子对及其对应的相似性分数，进行模型的训练和验证。数据集的结构清晰，每个样本包含两个句子及其归一化后的相似性分数，便于直接输入到模型中进行处理。此外，用户还可以根据需要对数据集进行进一步处理，如数据增强或特征提取，以提升模型的性能。

背景与挑战

背景概述

Arabic-stsb数据集是阿拉伯语语义文本相似性基准（Semantic Textual Similarity Benchmark, STSB）的阿拉伯语版本，由Cer等人于2017年首次提出。该数据集由新闻标题、视频和图像字幕以及自然语言推理数据中的句子对组成，每个句子对由人工标注相似性评分，评分范围从1到5。该数据集的阿拉伯语版本由Omer Nacar和Anis Koubaa等研究人员于2024年发布，旨在增强阿拉伯语自然语言处理中的语义相似性理解。该数据集通过将原始评分归一化至0到1之间，进一步优化了语义相似性评估的准确性，为阿拉伯语文本相似性研究提供了重要资源。

当前挑战

Arabic-stsb数据集在构建和应用过程中面临多重挑战。首先，阿拉伯语的复杂形态结构和丰富的方言变体使得语义相似性评估更加困难，尤其是在跨方言或跨文化语境下。其次，数据集的句子对通过神经机器翻译生成，可能导致翻译不准确或语义偏差，影响相似性评分的可靠性。此外，尽管评分经过归一化处理，原始评分的主观性和标注者之间的差异仍可能影响数据集的整体质量。这些挑战不仅要求研究人员在数据预处理和模型训练中采取更为精细的策略，还推动了阿拉伯语自然语言处理领域对语义相似性评估方法的进一步探索与优化。

常用场景

经典使用场景

Arabic-stsb数据集在自然语言处理领域中被广泛用于评估和训练阿拉伯语句子相似度模型。该数据集通过提供从新闻标题、视频和图像字幕以及自然语言推理数据中提取的句子对，帮助研究人员构建和优化句子嵌入模型。这些句子对经过人工标注，标注了从1到5的相似度评分，并归一化为0到1之间的值，使得模型能够更精确地捕捉句子之间的语义关系。

衍生相关工作

Arabic-stsb数据集的发布催生了一系列相关研究工作，特别是在阿拉伯语句子嵌入和语义相似度计算领域。基于该数据集，研究人员开发了多种先进的句子嵌入模型，如SentenceTransformers等。这些模型不仅在阿拉伯语文本处理中表现出色，还为其他语言的语义相似度研究提供了借鉴。此外，该数据集还被用于跨语言模型的训练，推动了多语言自然语言处理技术的发展。

数据集最近研究