five

projecte-aina/sts-ca

收藏
Hugging Face2025-03-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/sts-ca
下载链接
链接失效反馈
官方服务:
资源简介:
STS-ca语料库是一个用于评估加泰罗尼亚语语义文本相似性的基准数据集。该数据集由BSC TeMU开发,作为Projecte AINA项目的一部分,旨在丰富加泰罗尼亚语言理解基准(CLUB)。数据集包含从加泰罗尼亚语文本语料库中提取的句子对,并通过专家生成的注释来评估这些句子对的语义相似性。数据集遵循SemEval挑战的格式和惯例,包含开发集、训练集和测试集。
提供机构:
projecte-aina
原始信息汇总

数据集概述

数据集名称

  • 名称: STS-ca
  • 别名: sts-ca

数据集描述

  • 目的: 用于评估加泰罗尼亚语中的语义文本相似性。
  • 开发者: BSC TeMU,作为Projecte AINA项目的一部分,旨在丰富加泰罗尼亚语理解基准(CLUB)。

许可信息

  • 许可证: Attribution-ShareAlike 4.0 International License

语言

  • 语言: 加泰罗尼亚语 (ca-ES)

数据集结构

  • 数据实例: 遵循SemEval挑战格式,包括索引、ID、两个句子及平均分数。
  • 数据字段: 包括索引、ID、句子1、句子2和平均分数。
  • 数据分割: 包括训练集、验证集和测试集,分别包含2073、500和500个标注对。

数据集创建

  • 来源数据: 从加泰罗尼亚文本语料库中随机提取句子,使用Doc2Vec、Jaccard和BERT-like模型生成候选对,并进行手动审查。
  • 注释过程: 由两组不同的母语者团队独立进行相似性注释。

使用考虑

  • 社会影响: 旨在促进加泰罗尼亚语语言模型的发展。

附加信息

  • 数据集维护者: 巴塞罗那超级计算中心文本挖掘单元(TeMU)。
  • 资金支持: 加泰罗尼亚政府数字政策和领土部门,通过Projecte AINA项目资助。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作