MohamedRashad/arabic-sts

Name: MohamedRashad/arabic-sts
Creator: MohamedRashad
Published: 2024-03-17 23:20:19
License: 暂无描述

Hugging Face2024-03-17 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/MohamedRashad/arabic-sts

下载链接

链接失效反馈

官方服务：

资源简介：

阿拉伯语义文本相似性（Arabic-STS）数据集是一个旨在推进阿拉伯语言语义相似性评估研究的综合资源。该数据集基于arabic-billion-words，并加入了arabic-sts-benchmark，提供了多样化的句子对及其对应的相似性评分。数据集由CohereForAI的c4ai-command-r-v01语言模型精心制作，确保了高质量和语言丰富的内容。数据集的关键特征包括广泛的覆盖范围、语义相似性评分、多样化的句子对、基准数据的集成以及高质量的语言模型。潜在用途包括语义相似性研究、自然语言处理应用、阿拉伯语言理解以及跨语言研究。

提供机构：

MohamedRashad

原始信息汇总

数据集概述

数据集名称

名称: Arabic Semantic Textual Similarity (Arabic-STS)

数据集特征

特征1: sentence1
- 数据类型: string
特征2: sentence2
- 数据类型: string
特征3: similarity_score
- 数据类型: float64

数据集划分

训练集:
- 样本数: 11571
- 数据大小: 65534676字节
验证集:
- 样本数: 2970
- 数据大小: 16901650字节
测试集:
- 样本数: 2099
- 数据大小: 11125564字节

数据集大小

下载大小: 46575015字节
总数据大小: 93561890字节

数据集配置

配置名称: default
- 训练数据路径: data/train-*
- 验证数据路径: data/validation-*
- 测试数据路径: data/test-*

数据集描述

目的: 用于研究阿拉伯语的语义相似性评估。
来源: 基于arabic-billion-words和arabic-sts-benchmark数据集。
生成模型: 使用c4ai-command-r-v01语言模型生成。

关键特性

广泛覆盖: 包含大量句子对，全面代表阿拉伯语的语义景观。
语义相似性评分: 每个句子对都有精心分配的语义相似性评分。
多样化的句子对: 覆盖多种领域、类型和语言风格。
集成基准数据: 包含arabic-sts-benchmark，提供标准评估框架。
高质量语言模型: 使用c4ai-command-r-v01确保数据质量。

潜在用途

语义相似性研究: 用于开发和评估新的算法和模型。
自然语言处理应用: 提升文本分类、信息检索等应用的性能。
阿拉伯语理解: 探索语言的语义结构和现象。
跨语言研究: 与其他语言的类似数据集进行比较研究。

5,000+

优质数据集

54 个

任务类型

进入经典数据集