five

MohamedRashad/arabic-sts

收藏
Hugging Face2024-03-17 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/MohamedRashad/arabic-sts
下载链接
链接失效反馈
官方服务:
资源简介:
阿拉伯语义文本相似性(Arabic-STS)数据集是一个旨在推进阿拉伯语言语义相似性评估研究的综合资源。该数据集基于arabic-billion-words,并加入了arabic-sts-benchmark,提供了多样化的句子对及其对应的相似性评分。数据集由CohereForAI的c4ai-command-r-v01语言模型精心制作,确保了高质量和语言丰富的内容。数据集的关键特征包括广泛的覆盖范围、语义相似性评分、多样化的句子对、基准数据的集成以及高质量的语言模型。潜在用途包括语义相似性研究、自然语言处理应用、阿拉伯语言理解以及跨语言研究。

阿拉伯语义文本相似性(Arabic-STS)数据集是一个旨在推进阿拉伯语言语义相似性评估研究的综合资源。该数据集基于arabic-billion-words,并加入了arabic-sts-benchmark,提供了多样化的句子对及其对应的相似性评分。数据集由CohereForAI的c4ai-command-r-v01语言模型精心制作,确保了高质量和语言丰富的内容。数据集的关键特征包括广泛的覆盖范围、语义相似性评分、多样化的句子对、基准数据的集成以及高质量的语言模型。潜在用途包括语义相似性研究、自然语言处理应用、阿拉伯语言理解以及跨语言研究。
提供机构:
MohamedRashad
原始信息汇总

数据集概述

数据集名称

  • 名称: Arabic Semantic Textual Similarity (Arabic-STS)

数据集特征

  • 特征1: sentence1
    • 数据类型: string
  • 特征2: sentence2
    • 数据类型: string
  • 特征3: similarity_score
    • 数据类型: float64

数据集划分

  • 训练集:
    • 样本数: 11571
    • 数据大小: 65534676字节
  • 验证集:
    • 样本数: 2970
    • 数据大小: 16901650字节
  • 测试集:
    • 样本数: 2099
    • 数据大小: 11125564字节

数据集大小

  • 下载大小: 46575015字节
  • 总数据大小: 93561890字节

数据集配置

  • 配置名称: default
    • 训练数据路径: data/train-*
    • 验证数据路径: data/validation-*
    • 测试数据路径: data/test-*

数据集描述

  • 目的: 用于研究阿拉伯语的语义相似性评估。
  • 来源: 基于arabic-billion-words和arabic-sts-benchmark数据集。
  • 生成模型: 使用c4ai-command-r-v01语言模型生成。

关键特性

  1. 广泛覆盖: 包含大量句子对,全面代表阿拉伯语的语义景观。
  2. 语义相似性评分: 每个句子对都有精心分配的语义相似性评分。
  3. 多样化的句子对: 覆盖多种领域、类型和语言风格。
  4. 集成基准数据: 包含arabic-sts-benchmark,提供标准评估框架。
  5. 高质量语言模型: 使用c4ai-command-r-v01确保数据质量。

潜在用途

  1. 语义相似性研究: 用于开发和评估新的算法和模型。
  2. 自然语言处理应用: 提升文本分类、信息检索等应用的性能。
  3. 阿拉伯语理解: 探索语言的语义结构和现象。
  4. 跨语言研究: 与其他语言的类似数据集进行比较研究。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作