five

nilc-nlp/assin2

收藏
Hugging Face2024-01-09 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/nilc-nlp/assin2
下载链接
链接失效反馈
官方服务:
资源简介:
ASSIN 2语料库由相对简单的句子组成,遵循SemEval 2014 Task 1的程序。训练和验证数据分别由6500和500个巴西葡萄牙语的句子对组成,这些句子对被注释为蕴含和语义相似性。语义相似性值范围从1到5,文本蕴含类别为蕴含或无。测试数据由大约3000个具有相同注释的句子对组成。所有数据都是手动注释的。
提供机构:
nilc-nlp
原始信息汇总

数据集概述

  • 数据集名称: ASSIN 2
  • 数据集别名: ASSIN 2
  • 数据集简介: ASSIN 2 是一个包含简单句子的语料库,主要用于文本分类任务,如文本评分、自然语言推理和语义相似度评分。数据集包含训练、验证和测试三个部分,总计约9448个句子对,所有句子对均为巴西葡萄牙语,并经过人工标注。
  • 语言: 葡萄牙语
  • 数据集大小: 数据集总大小为1270085字节,下载大小为566733字节。
  • 数据集结构: 数据集分为训练集(6500个样本)、验证集(500个样本)和测试集(2448个样本)。
  • 数据集特征:
    • sentence_pair_id: 整数类型
    • premise: 字符串类型
    • hypothesis: 字符串类型
    • relatedness_score: 浮点数类型
    • entailment_judgment: 分类标签,包含NONE和ENTAILMENT两个类别

数据集详细信息

  • 数据集创建: 数据集由专家生成,源数据为原创数据。

  • 许可证: 许可证信息未知。

  • 多语言性: 单语数据集。

  • 数据集任务: 主要支持文本分类任务,包括文本评分、自然语言推理和语义相似度评分。

  • 数据集样本示例:

    { "entailment_judgment": 1, "hypothesis": "Uma criança está segurando uma pistola de água", "premise": "Uma criança risonha está segurando uma pistola de água e sendo espirrada com água", "relatedness_score": 4.5, "sentence_pair_id": 1 }

数据集使用注意事项

  • 许可证: 由于许可证信息未知,使用时需谨慎。
  • 数据集多语言性: 数据集为单语种,仅支持葡萄牙语。
  • 数据集任务: 数据集主要用于文本分类任务,包括文本评分、自然语言推理和语义相似度评分。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作