five

projecte-aina/xnli-ca

收藏
Hugging Face2024-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/xnli-ca
下载链接
链接失效反馈
官方服务:
资源简介:
XNLI-ca数据集是Cross-lingual Natural Language Inference (XNLI)数据集的加泰罗尼亚语翻译版本,专门用于语言迁移和跨语言句子分类的评估。该数据集包含7500个句子对,每个句子对都标注了文本蕴含关系。数据集的结构包括两个JSON文件,分别对应验证集和测试集。数据集的创建目的是为了促进加泰罗尼亚语这一低资源语言的模型开发。数据集的使用仅限于非商业研究目的,遵循Creative Commons Attribution Non-commercial 4.0 International Public License。

XNLI-ca数据集是Cross-lingual Natural Language Inference (XNLI)数据集的加泰罗尼亚语翻译版本,专门用于语言迁移和跨语言句子分类的评估。该数据集包含7500个句子对,每个句子对都标注了文本蕴含关系。数据集的结构包括两个JSON文件,分别对应验证集和测试集。数据集的创建目的是为了促进加泰罗尼亚语这一低资源语言的模型开发。数据集的使用仅限于非商业研究目的,遵循Creative Commons Attribution Non-commercial 4.0 International Public License。
提供机构:
projecte-aina
原始信息汇总

数据集概述

数据集名称

  • 名称: XNLI-ca
  • 语言: 加泰罗尼亚语 (ca-ES)

数据集描述

数据集结构

  • 数据实例: 包含两个JSON文件,分别对应不同的数据分割。
  • 数据字段:
    • premise: 文本
    • hypothesis: 与前提相关的文本
    • label: 前提与假设之间的关系,包括:
      • 0: 蕴含
      • 1: 中立
      • 2: 矛盾

数据集创建

  • 来源数据: 基于XNLI数据集的专业翻译。
  • 注释者: 专业翻译人员

使用数据注意事项

  • 社会影响: 旨在促进加泰罗尼亚语这种低资源语言的语言模型发展。

附加信息

  • 数据集维护者: 巴塞罗那超级计算中心的语言技术单位 (langtech@bsc.es)
  • 资金支持: 由加泰罗尼亚政府数字政策和领土部门资助,作为Projecte AINA框架的一部分。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作