five

dariolopez/justicio-BOE-A-1978-31229-constitucion-by-articles-qa-multilingual-e5-large-groq_llama3_70b-sas

收藏
Hugging Face2024-07-14 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/dariolopez/justicio-BOE-A-1978-31229-constitucion-by-articles-qa-multilingual-e5-large-groq_llama3_70b-sas
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于评估Justicio系统的端到端数据集,主要涉及法律领域,特别是西班牙宪法。数据集使用SAS(语义答案相似度)指标进行评估,语言为西班牙语。数据集包含多个字段,如文章编号、文章内容、问题、真实答案、上下文QA、生成的答案以及多个模型的SAS评分。SAS评分范围从0到1,分数越高表示生成的答案与真实答案的语义相似度越高。

该数据集是一个用于评估Justicio系统的端到端数据集,主要涉及法律领域,特别是西班牙宪法。数据集使用SAS(语义答案相似度)指标进行评估,语言为西班牙语。数据集包含多个字段,如文章编号、文章内容、问题、真实答案、上下文QA、生成的答案以及多个模型的SAS评分。SAS评分范围从0到1,分数越高表示生成的答案与真实答案的语义相似度越高。
提供机构:
dariolopez
原始信息汇总

数据集概述

数据集信息

  • 特征字段:

    • number: 整数类型,西班牙宪法的文章编号。
    • context: 字符串类型,西班牙宪法的文章文本。
    • question: 字符串类型,与西班牙宪法每段相关的生成问题。
    • ground_truth: 字符串类型,与西班牙宪法每段相关的生成答案。
    • context_qa: 列表类型,包含以下字段:
      • context: 字符串类型,最接近问题的10个片段。
      • score: 浮点数类型,匹配分数。
    • answer: 字符串类型,使用原始justicio提示和llama-3-70b生成的答案。
    • multilingual-e5-large-sas: 浮点数类型,intfloat/multilingual-e5-large SAS。
    • sentence_similarity_spanish_es-sas: 浮点数类型,hiiamsid/sentence_similarity_spanish_es SAS。
    • paraphrase-multilingual-mpnet-base-v2-sas: 浮点数类型,sentence-transformers/paraphrase-multilingual-mpnet-base-v2 SAS。
    • roberta-base-bne-finetuned-msmarco-qa-es-mnrl-mn-sas: 浮点数类型,dariolopez/roberta-base-bne-finetuned-msmarco-qa-es-mnrl-mn SAS。
    • mean_sas: 浮点数类型,模型平均SAS。
  • 数据分割:

    • train: 训练集,包含514个样本,占用5249988字节。
  • 下载大小: 2095036字节

  • 数据集大小: 5249988字节

配置信息

  • 配置名称: default
  • 数据文件:
    • train: 路径为data/train-*

许可信息

  • 许可证: apache-2.0

任务类别

  • 任务类型: 问答

语言

  • 语言: 西班牙语

标签

  • 标签: 法律

数据集大小类别

  • 大小类别: n<1K

数据字段

  • number: 西班牙宪法的文章编号。
  • context: 西班牙宪法的文章文本。
  • question: 与西班牙宪法每段相关的生成问题。
  • ground_truth: 与西班牙宪法每段相关的生成答案。
  • context_qa: 最接近问题的10个片段及其匹配分数。
  • answer: 使用原始justicio提示和llama-3-70b生成的答案。
  • multilingual-e5-large-sas: intfloat/multilingual-e5-large SAS。
  • sentence_similarity_spanish_es-sas: hiiamsid/sentence_similarity_spanish_es SAS。
  • paraphrase-multilingual-mpnet-base-v2-sas: sentence-transformers/paraphrase-multilingual-mpnet-base-v2 SAS。
  • roberta-base-bne-finetuned-msmarco-qa-es-mnrl-mn-sas: dariolopez/roberta-base-bne-finetuned-msmarco-qa-es-mnrl-mn SAS。
  • mean_sas: 模型平均SAS。

语义答案相似度(SAS)平均值

  • 平均SAS: 0.6350389918624224
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作