MohamedRashad/arabic-sts
收藏Hugging Face2024-03-17 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/MohamedRashad/arabic-sts
下载链接
链接失效反馈官方服务:
资源简介:
阿拉伯语义文本相似性(Arabic-STS)数据集是一个旨在推进阿拉伯语言语义相似性评估研究的综合资源。该数据集基于arabic-billion-words,并加入了arabic-sts-benchmark,提供了多样化的句子对及其对应的相似性评分。数据集由CohereForAI的c4ai-command-r-v01语言模型精心制作,确保了高质量和语言丰富的内容。数据集的关键特征包括广泛的覆盖范围、语义相似性评分、多样化的句子对、基准数据的集成以及高质量的语言模型。潜在用途包括语义相似性研究、自然语言处理应用、阿拉伯语言理解以及跨语言研究。
阿拉伯语义文本相似性(Arabic-STS)数据集是一个旨在推进阿拉伯语言语义相似性评估研究的综合资源。该数据集基于arabic-billion-words,并加入了arabic-sts-benchmark,提供了多样化的句子对及其对应的相似性评分。数据集由CohereForAI的c4ai-command-r-v01语言模型精心制作,确保了高质量和语言丰富的内容。数据集的关键特征包括广泛的覆盖范围、语义相似性评分、多样化的句子对、基准数据的集成以及高质量的语言模型。潜在用途包括语义相似性研究、自然语言处理应用、阿拉伯语言理解以及跨语言研究。
提供机构:
MohamedRashad
原始信息汇总
数据集概述
数据集名称
- 名称: Arabic Semantic Textual Similarity (Arabic-STS)
数据集特征
- 特征1: sentence1
- 数据类型: string
- 特征2: sentence2
- 数据类型: string
- 特征3: similarity_score
- 数据类型: float64
数据集划分
- 训练集:
- 样本数: 11571
- 数据大小: 65534676字节
- 验证集:
- 样本数: 2970
- 数据大小: 16901650字节
- 测试集:
- 样本数: 2099
- 数据大小: 11125564字节
数据集大小
- 下载大小: 46575015字节
- 总数据大小: 93561890字节
数据集配置
- 配置名称: default
- 训练数据路径: data/train-*
- 验证数据路径: data/validation-*
- 测试数据路径: data/test-*
数据集描述
- 目的: 用于研究阿拉伯语的语义相似性评估。
- 来源: 基于arabic-billion-words和arabic-sts-benchmark数据集。
- 生成模型: 使用c4ai-command-r-v01语言模型生成。
关键特性
- 广泛覆盖: 包含大量句子对,全面代表阿拉伯语的语义景观。
- 语义相似性评分: 每个句子对都有精心分配的语义相似性评分。
- 多样化的句子对: 覆盖多种领域、类型和语言风格。
- 集成基准数据: 包含arabic-sts-benchmark,提供标准评估框架。
- 高质量语言模型: 使用c4ai-command-r-v01确保数据质量。
潜在用途
- 语义相似性研究: 用于开发和评估新的算法和模型。
- 自然语言处理应用: 提升文本分类、信息检索等应用的性能。
- 阿拉伯语理解: 探索语言的语义结构和现象。
- 跨语言研究: 与其他语言的类似数据集进行比较研究。



