luiseduardobrito/assin2-ada
收藏Hugging Face2023-08-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/luiseduardobrito/assin2-ada
下载链接
链接失效反馈官方服务:
资源简介:
ASSIN 2语料库由相对简单的句子组成,遵循SemEval 2014任务1的程序。训练和验证数据分别由6,500和500个巴西葡萄牙语句子对组成,注释了蕴含和语义相似性。语义相似性值范围从1到5,文本蕴含类别为蕴含或无。测试数据由大约3,000个句子对组成,具有相同的注释。原始数据集中的所有数据都是手动注释的。此数据集扩展了原始ASSIN2,增加了使用OpenAI的`text-embedding-ada-002`模型计算的`cosine_similarity`列,用于研究和基准测试目的,因为它目前被认为是此任务的最佳多语言模型之一。
ASSIN 2语料库由相对简单的句子组成,遵循SemEval 2014任务1的程序。训练和验证数据分别由6,500和500个巴西葡萄牙语句子对组成,注释了蕴含和语义相似性。语义相似性值范围从1到5,文本蕴含类别为蕴含或无。测试数据由大约3,000个句子对组成,具有相同的注释。原始数据集中的所有数据都是手动注释的。此数据集扩展了原始ASSIN2,增加了使用OpenAI的`text-embedding-ada-002`模型计算的`cosine_similarity`列,用于研究和基准测试目的,因为它目前被认为是此任务的最佳多语言模型之一。
提供机构:
luiseduardobrito
原始信息汇总
数据集卡片 for ASSIN 2 (ADA)
数据集概述
ASSIN 2 语料库由相对简单的句子组成,遵循 SemEval 2014 Task 1 的程序。训练和验证数据分别由 6,500 和 500 对巴西葡萄牙语句子组成,标注了蕴含关系和语义相似度。语义相似度值范围从 1 到 5,文本蕴含类别为蕴含或无。测试数据由大约 3,000 对句子组成,具有相同的标注。原始数据集中的所有数据均为手动标注。
该数据集扩展了原始 ASSIN2,添加了使用 OpenAI 的 text-embedding-ada-002 计算的 cosine_similarity 列,用于研究和基准测试目的,因为它目前被认为是该任务的最佳多语言模型之一。
支持的语言
支持的语言是葡萄牙语。
数据集结构
数据字段
premise: 一个string特征。hypothesis: 一个string特征。relatedness_score: 一个float32特征。entailment_judgment: 一个分类标签,可能的值包括NONE,ENTAILMENT。ada_cosine_similarity: 使用 OpenAI ada v2 嵌入计算的相似度
数据分割
数据分为训练集、验证集和测试集。分割大小如下:
| Train | Val | Test |
|---|---|---|
| 6500 | 500 | 2448 |
引用信息
@inproceedings{real2020assin, title={The assin 2 shared task: a quick overview}, author={Real, Livy and Fonseca, Erick and Oliveira, Hugo Goncalo}, booktitle={International Conference on Computational Processing of the Portuguese Language}, pages={406--412}, year={2020}, organization={Springer} }



