projecte-aina/sts-ca

Name: projecte-aina/sts-ca
Creator: projecte-aina
Published: 2025-03-25 09:54:42
License: 暂无描述

Hugging Face2025-03-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/sts-ca

下载链接

链接失效反馈

官方服务：

资源简介：

STS-ca语料库是一个用于评估加泰罗尼亚语语义文本相似性的基准数据集。该数据集由BSC TeMU开发，作为Projecte AINA项目的一部分，旨在丰富加泰罗尼亚语言理解基准（CLUB）。数据集包含从加泰罗尼亚语文本语料库中提取的句子对，并通过专家生成的注释来评估这些句子对的语义相似性。数据集遵循SemEval挑战的格式和惯例，包含开发集、训练集和测试集。

提供机构：

projecte-aina

原始信息汇总

数据集概述

数据集名称

名称: STS-ca
别名: sts-ca

数据集描述

目的: 用于评估加泰罗尼亚语中的语义文本相似性。
开发者: BSC TeMU，作为Projecte AINA项目的一部分，旨在丰富加泰罗尼亚语理解基准（CLUB）。

许可信息

许可证: Attribution-ShareAlike 4.0 International License

语言

语言: 加泰罗尼亚语 (ca-ES)

数据集结构

数据实例: 遵循SemEval挑战格式，包括索引、ID、两个句子及平均分数。
数据字段: 包括索引、ID、句子1、句子2和平均分数。
数据分割: 包括训练集、验证集和测试集，分别包含2073、500和500个标注对。

数据集创建

来源数据: 从加泰罗尼亚文本语料库中随机提取句子，使用Doc2Vec、Jaccard和BERT-like模型生成候选对，并进行手动审查。
注释过程: 由两组不同的母语者团队独立进行相似性注释。

使用考虑

社会影响: 旨在促进加泰罗尼亚语语言模型的发展。

附加信息

数据集维护者: 巴塞罗那超级计算中心文本挖掘单元（TeMU）。
资金支持: 加泰罗尼亚政府数字政策和领土部门，通过Projecte AINA项目资助。

5,000+

优质数据集

54 个

任务类型

进入经典数据集