five

PORTULAN/extraglue-instruct

收藏
Hugging Face2024-03-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PORTULAN/extraglue-instruct
下载链接
链接失效反馈
官方服务:
资源简介:
ExtraGLUE-Instruct是一个包含任务示例、指令和提示的数据集,适用于葡萄牙的欧洲葡萄牙语和巴西的美洲葡萄牙语。该数据集基于葡萄牙语的extraGLUE数据集,包含了超过170,000个例子和68百万个标记,涵盖了文本分类、句子相似性、问答等多种任务。数据集对原始数据进行了指令添加和标签调整,以更好地适应任务需求,并应用了数据增强技术。

ExtraGLUE-Instruct是一个包含任务示例、指令和提示的数据集,适用于葡萄牙的欧洲葡萄牙语和巴西的美洲葡萄牙语。该数据集基于葡萄牙语的extraGLUE数据集,包含了超过170,000个例子和68百万个标记,涵盖了文本分类、句子相似性、问答等多种任务。数据集对原始数据进行了指令添加和标签调整,以更好地适应任务需求,并应用了数据增强技术。
提供机构:
PORTULAN
原始信息汇总

ExtraGLUE-Instruct 数据集概述

基本信息

  • 名称: ExtraGLUE-Instruct
  • 语言: 葡萄牙语
  • 来源数据集: PORTULAN/extraglue
  • 许可证: MIT
  • 任务类别:
    • 文本分类
    • 句子相似度
    • 问答
  • 任务ID:
    • 语言建模
    • 多类别分类
    • 自然语言推理
    • 语义相似度评分
    • 语义相似度分类

数据集描述

ExtraGLUE-instruct 是一个包含任务示例、指令和整合了指令与示例的提示的数据集,适用于葡萄牙的欧洲变体和巴西的美国变体。每个变体包含超过170,000个示例,超过6800万个标记。

该数据集基于葡萄牙语 extraGLUE 数据集中的八个任务,涵盖了语言理解的不同方面:

相似度任务

  • STS-B (Semantic Textual Similarity Benchmark): 句子对数据集,标注了0-5的语义相似度分数。
  • MRPC (Microsoft Research Paraphrase Corpus): 句子对数据集,标注了是否为释义。

推理任务

  • RTE (Recognizing Textual Entailment): 句子对数据集,标注了一个句子(前提)是否蕴含另一个句子(假设)。
  • WNLI (Winograd Natural Language Inference): 句子对数据集,第一个句子包含一个代词,其指代对象必须正确解析以确定第一个句子是否蕴含第二个句子。
  • CB (CommitmentBank): 摘录-子句对数据集,每个对被分类为摘录是否暗示、矛盾或中立于子句。

问答任务

  • BoolQ (Boolean Questions): 文本摘录和是/否问题的数据集。
  • MultiRC (Multi-Sentence Reading Comprehension): 每个实例包含一个上下文段落、一个问题和答案,标注答案是否为真。对于给定的上下文段落可能有多个问题,每个问题可能有多个答案,有些为真,有些为假。

推理任务

  • COPA (Choice of Plausible Alternatives): 包含前提、两个替代句子和因果指示的数据集。任务是指出哪个替代句子是前提的因果。

extraGLUE-instruct 中,为上述每个任务添加了指令。为了与 extraGLUE 的源数据集保持一致,字段名称保持不变(例如 "label", "question", "answer" 等)。

在源数据集中,黄金标签("label" 字段)是数字,例如 CB 为 0/1/2,STS-B 为 0 到 5 之间的数字,其他任务为 0/1。根据任务的不同,为了更好地与相应的指令对齐,extraGLUE-instruct 中的标签值被更改如下:

  • 对于 CB,0/1/2 分别改为 Implicação/Contradição/Neutro。
  • 对于 STS-B,添加了一个新字段 "label_round",将分数四舍五入到最近的整数,指令要求整数范围为 0-5;原始的非四舍五入分数保留在 "label" 字段中。
  • 对于 COPA,0/1 分别改为 A/B。
  • 对于 RTE,0/1 分别改为 sim/não。
  • 对于其他任务,0/1 分别改为 não/sim。

ExtraGLUE-instruct 还通过应用数据增强技术得到,详细描述见以下 出版物

latex @misc{gervasio, title={Advancing Generative AI for Portuguese with Open Decoder Gervásio PT-*}, author={Rodrigo Santos, João Silva, Luís Gomes, João Rodrigues, António Branco}, year={2024}, eprint={2402.18766}, archivePrefix={arXiv}, primaryClass={cs.CL} }

请在使用或引用此数据集时使用上述标准参考。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作