luiseduardobrito/assin2-ada

Name: luiseduardobrito/assin2-ada
Creator: luiseduardobrito
Published: 2023-08-25 20:00:48
License: 暂无描述

Hugging Face2023-08-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/luiseduardobrito/assin2-ada

下载链接

链接失效反馈

官方服务：

资源简介：

ASSIN 2语料库由相对简单的句子组成，遵循SemEval 2014任务1的程序。训练和验证数据分别由6,500和500个巴西葡萄牙语句子对组成，注释了蕴含和语义相似性。语义相似性值范围从1到5，文本蕴含类别为蕴含或无。测试数据由大约3,000个句子对组成，具有相同的注释。原始数据集中的所有数据都是手动注释的。此数据集扩展了原始ASSIN2，增加了使用OpenAI的`text-embedding-ada-002`模型计算的`cosine_similarity`列，用于研究和基准测试目的，因为它目前被认为是此任务的最佳多语言模型之一。

提供机构：

luiseduardobrito

原始信息汇总

数据集卡片 for ASSIN 2 (ADA)

数据集概述

ASSIN 2 语料库由相对简单的句子组成，遵循 SemEval 2014 Task 1 的程序。训练和验证数据分别由 6,500 和 500 对巴西葡萄牙语句子组成，标注了蕴含关系和语义相似度。语义相似度值范围从 1 到 5，文本蕴含类别为蕴含或无。测试数据由大约 3,000 对句子组成，具有相同的标注。原始数据集中的所有数据均为手动标注。

该数据集扩展了原始 ASSIN2，添加了使用 OpenAI 的 text-embedding-ada-002 计算的 cosine_similarity 列，用于研究和基准测试目的，因为它目前被认为是该任务的最佳多语言模型之一。

支持的语言

支持的语言是葡萄牙语。

数据集结构

数据字段

premise: 一个 string 特征。
hypothesis: 一个 string 特征。
relatedness_score: 一个 float32 特征。
entailment_judgment: 一个分类标签，可能的值包括 NONE, ENTAILMENT。
ada_cosine_similarity: 使用 OpenAI ada v2 嵌入计算的相似度

数据分割

数据分为训练集、验证集和测试集。分割大小如下：

Train	Val	Test
6500	500	2448

引用信息

@inproceedings{real2020assin, title={The assin 2 shared task: a quick overview}, author={Real, Livy and Fonseca, Erick and Oliveira, Hugo Goncalo}, booktitle={International Conference on Computational Processing of the Portuguese Language}, pages={406--412}, year={2020}, organization={Springer} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集