nilc-nlp/assin
收藏Hugging Face2024-01-09 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/nilc-nlp/assin
下载链接
链接失效反馈官方服务:
资源简介:
ASSIN(Avaliação de Similaridade Semântica e INferência textual)语料库是一个包含葡萄牙语句子对的语料库,适用于文本推理和释义分类器的探索。该语料库包含从葡萄牙和巴西的新闻文章中提取的句子对,分别使用欧洲葡萄牙语(EP)和巴西葡萄牙语(BP)编写。数据集的创建过程包括从Google News中收集描述同一事件的新闻文章,并使用LDA模型检索相似句子对。最终的数据集包含10,000个句子对,其中一半为巴西葡萄牙语,另一半为欧洲葡萄牙语。每个语言变体包含2,500个训练对、500个验证对和2,000个测试对。
提供机构:
nilc-nlp
原始信息汇总
数据集概述
名称: ASSIN (Avaliação de Similaridade Semântica e INferência textual)
语言: 葡萄牙语 (pt)
许可证: 未知
多语言性: 单语种
大小: 10K<n<100K
源数据集: 原始数据
任务类别: 文本分类
任务ID:
- 文本评分
- 自然语言推理
- 语义相似性评分
配置:
- full: 默认配置,包含5000个训练样本,1000个验证样本,4000个测试样本。
- ptbr: 包含2500个训练样本,500个验证样本,2000个测试样本。
- ptpt: 包含2500个训练样本,500个验证样本,2000个测试样本。
数据集结构
特征:
sentence_pair_id: int64premise: stringhypothesis: stringrelatedness_score: float32entailment_judgment: class_label (0: NONE, 1: ENTAILMENT, 2: PARAPHRASE)
数据分割:
- full:
- 训练: 5000样本, 986499字节
- 测试: 4000样本, 767304字节
- 验证: 1000样本, 196821字节
- ptbr:
- 训练: 2500样本, 463505字节
- 测试: 2000样本, 374424字节
- 验证: 500样本, 91203字节
- ptpt:
- 训练: 2500样本, 522994字节
- 测试: 2000样本, 392880字节
- 验证: 500样本, 105618字节



