five

nilc-nlp/assin

收藏
Hugging Face2024-01-09 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/nilc-nlp/assin
下载链接
链接失效反馈
官方服务:
资源简介:
ASSIN(Avaliação de Similaridade Semântica e INferência textual)语料库是一个包含葡萄牙语句子对的语料库,适用于文本推理和释义分类器的探索。该语料库包含从葡萄牙和巴西的新闻文章中提取的句子对,分别使用欧洲葡萄牙语(EP)和巴西葡萄牙语(BP)编写。数据集的创建过程包括从Google News中收集描述同一事件的新闻文章,并使用LDA模型检索相似句子对。最终的数据集包含10,000个句子对,其中一半为巴西葡萄牙语,另一半为欧洲葡萄牙语。每个语言变体包含2,500个训练对、500个验证对和2,000个测试对。
提供机构:
nilc-nlp
原始信息汇总

数据集概述

名称: ASSIN (Avaliação de Similaridade Semântica e INferência textual)

语言: 葡萄牙语 (pt)

许可证: 未知

多语言性: 单语种

大小: 10K<n<100K

源数据集: 原始数据

任务类别: 文本分类

任务ID:

  • 文本评分
  • 自然语言推理
  • 语义相似性评分

配置:

  • full: 默认配置,包含5000个训练样本,1000个验证样本,4000个测试样本。
  • ptbr: 包含2500个训练样本,500个验证样本,2000个测试样本。
  • ptpt: 包含2500个训练样本,500个验证样本,2000个测试样本。

数据集结构

特征:

  • sentence_pair_id: int64
  • premise: string
  • hypothesis: string
  • relatedness_score: float32
  • entailment_judgment: class_label (0: NONE, 1: ENTAILMENT, 2: PARAPHRASE)

数据分割:

  • full:
    • 训练: 5000样本, 986499字节
    • 测试: 4000样本, 767304字节
    • 验证: 1000样本, 196821字节
  • ptbr:
    • 训练: 2500样本, 463505字节
    • 测试: 2000样本, 374424字节
    • 验证: 500样本, 91203字节
  • ptpt:
    • 训练: 2500样本, 522994字节
    • 测试: 2000样本, 392880字节
    • 验证: 500样本, 105618字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作