PORTULAN/extraglue-instruct
收藏Hugging Face2024-03-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PORTULAN/extraglue-instruct
下载链接
链接失效反馈官方服务:
资源简介:
ExtraGLUE-Instruct是一个包含任务示例、指令和提示的数据集,适用于葡萄牙的欧洲葡萄牙语和巴西的美洲葡萄牙语。该数据集基于葡萄牙语的extraGLUE数据集,包含了超过170,000个例子和68百万个标记,涵盖了文本分类、句子相似性、问答等多种任务。数据集对原始数据进行了指令添加和标签调整,以更好地适应任务需求,并应用了数据增强技术。
ExtraGLUE-Instruct是一个包含任务示例、指令和提示的数据集,适用于葡萄牙的欧洲葡萄牙语和巴西的美洲葡萄牙语。该数据集基于葡萄牙语的extraGLUE数据集,包含了超过170,000个例子和68百万个标记,涵盖了文本分类、句子相似性、问答等多种任务。数据集对原始数据进行了指令添加和标签调整,以更好地适应任务需求,并应用了数据增强技术。
提供机构:
PORTULAN
原始信息汇总
ExtraGLUE-Instruct 数据集概述
基本信息
- 名称: ExtraGLUE-Instruct
- 语言: 葡萄牙语
- 来源数据集: PORTULAN/extraglue
- 许可证: MIT
- 任务类别:
- 文本分类
- 句子相似度
- 问答
- 任务ID:
- 语言建模
- 多类别分类
- 自然语言推理
- 语义相似度评分
- 语义相似度分类
数据集描述
ExtraGLUE-instruct 是一个包含任务示例、指令和整合了指令与示例的提示的数据集,适用于葡萄牙的欧洲变体和巴西的美国变体。每个变体包含超过170,000个示例,超过6800万个标记。
该数据集基于葡萄牙语 extraGLUE 数据集中的八个任务,涵盖了语言理解的不同方面:
相似度任务
- STS-B (Semantic Textual Similarity Benchmark): 句子对数据集,标注了0-5的语义相似度分数。
- MRPC (Microsoft Research Paraphrase Corpus): 句子对数据集,标注了是否为释义。
推理任务
- RTE (Recognizing Textual Entailment): 句子对数据集,标注了一个句子(前提)是否蕴含另一个句子(假设)。
- WNLI (Winograd Natural Language Inference): 句子对数据集,第一个句子包含一个代词,其指代对象必须正确解析以确定第一个句子是否蕴含第二个句子。
- CB (CommitmentBank): 摘录-子句对数据集,每个对被分类为摘录是否暗示、矛盾或中立于子句。
问答任务
- BoolQ (Boolean Questions): 文本摘录和是/否问题的数据集。
- MultiRC (Multi-Sentence Reading Comprehension): 每个实例包含一个上下文段落、一个问题和答案,标注答案是否为真。对于给定的上下文段落可能有多个问题,每个问题可能有多个答案,有些为真,有些为假。
推理任务
- COPA (Choice of Plausible Alternatives): 包含前提、两个替代句子和因果指示的数据集。任务是指出哪个替代句子是前提的因果。
在 extraGLUE-instruct 中,为上述每个任务添加了指令。为了与 extraGLUE 的源数据集保持一致,字段名称保持不变(例如 "label", "question", "answer" 等)。
在源数据集中,黄金标签("label" 字段)是数字,例如 CB 为 0/1/2,STS-B 为 0 到 5 之间的数字,其他任务为 0/1。根据任务的不同,为了更好地与相应的指令对齐,extraGLUE-instruct 中的标签值被更改如下:
- 对于 CB,0/1/2 分别改为 Implicação/Contradição/Neutro。
- 对于 STS-B,添加了一个新字段 "label_round",将分数四舍五入到最近的整数,指令要求整数范围为 0-5;原始的非四舍五入分数保留在 "label" 字段中。
- 对于 COPA,0/1 分别改为 A/B。
- 对于 RTE,0/1 分别改为 sim/não。
- 对于其他任务,0/1 分别改为 não/sim。
ExtraGLUE-instruct 还通过应用数据增强技术得到,详细描述见以下 出版物:
latex @misc{gervasio, title={Advancing Generative AI for Portuguese with Open Decoder Gervásio PT-*}, author={Rodrigo Santos, João Silva, Luís Gomes, João Rodrigues, António Branco}, year={2024}, eprint={2402.18766}, archivePrefix={arXiv}, primaryClass={cs.CL} }
请在使用或引用此数据集时使用上述标准参考。



