projecte-aina/sts-ca
收藏Hugging Face2025-03-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/sts-ca
下载链接
链接失效反馈官方服务:
资源简介:
STS-ca语料库是一个用于评估加泰罗尼亚语语义文本相似性的基准数据集。该数据集由BSC TeMU开发,作为Projecte AINA项目的一部分,旨在丰富加泰罗尼亚语言理解基准(CLUB)。数据集包含从加泰罗尼亚语文本语料库中提取的句子对,并通过专家生成的注释来评估这些句子对的语义相似性。数据集遵循SemEval挑战的格式和惯例,包含开发集、训练集和测试集。
提供机构:
projecte-aina
原始信息汇总
数据集概述
数据集名称
- 名称: STS-ca
- 别名: sts-ca
数据集描述
- 目的: 用于评估加泰罗尼亚语中的语义文本相似性。
- 开发者: BSC TeMU,作为Projecte AINA项目的一部分,旨在丰富加泰罗尼亚语理解基准(CLUB)。
许可信息
- 许可证: Attribution-ShareAlike 4.0 International License
语言
- 语言: 加泰罗尼亚语 (
ca-ES)
数据集结构
- 数据实例: 遵循SemEval挑战格式,包括索引、ID、两个句子及平均分数。
- 数据字段: 包括索引、ID、句子1、句子2和平均分数。
- 数据分割: 包括训练集、验证集和测试集,分别包含2073、500和500个标注对。
数据集创建
- 来源数据: 从加泰罗尼亚文本语料库中随机提取句子,使用Doc2Vec、Jaccard和BERT-like模型生成候选对,并进行手动审查。
- 注释过程: 由两组不同的母语者团队独立进行相似性注释。
使用考虑
- 社会影响: 旨在促进加泰罗尼亚语语言模型的发展。
附加信息
- 数据集维护者: 巴塞罗那超级计算中心文本挖掘单元(TeMU)。
- 资金支持: 加泰罗尼亚政府数字政策和领土部门,通过Projecte AINA项目资助。



