five

mrinaldi/Proposte_LLM

收藏
Hugging Face2024-03-03 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/mrinaldi/Proposte_LLM
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集提案旨在创建用于训练和微调大型语言模型(LLM)的高质量、多语言数据集,特别是针对意大利语。提案包括创建问答对数据集、文本理解数据集以及推理和思维链数据集。作者强调了当前数据集的问题,如过度依赖英语和文化偏见,并提出了通过众包等方式收集高质量数据的建议。

该数据集提案旨在创建用于训练和微调大型语言模型(LLM)的高质量、多语言数据集,特别是针对意大利语。提案包括创建问答对数据集、文本理解数据集以及推理和思维链数据集。作者强调了当前数据集的问题,如过度依赖英语和文化偏见,并提出了通过众包等方式收集高质量数据的建议。
提供机构:
mrinaldi
原始信息汇总

数据集概述

许可证信息

数据集目的

  • 用于训练和微调大型语言模型(LLM)的数据集创建提案。
  • 强调数据集的质量和多语言特性,特别是意大利语,但潜在适用于其他语言和地区。

数据集类型

  • 小规模、特定、精心策划的数据集:适用于微调阶段,而非大规模训练。

数据集1:问题/回答对(Instruction Fine-Tuning)

  • 学术领域

    • 目的:提供模型必要的抽象能力,以便在受到询问时进行回答。
    • 特点:强调复杂问题的详细和深入回答。
    • 实现方式:通过众包平台,鼓励学生上传基于其大学笔记或知识的问答对。
    • 优先考虑复杂、具体且涉及一定推理的学术问题。
  • 通用领域

    • 涵盖广泛的任务,如故事生成、诗歌创作、社交媒体帖子描述、电子邮件撰写、广告口号等。
    • 挑战:可能包含个人观点、偏见、伦理考虑和质量问题。
    • 实现方式:通过众包,尝试简化任务,如文本摘要、风格转换、简单问答等。

数据集2:文本理解

  • 目的:提高模型对复杂文本的理解能力。
  • 特点:包括列出文本中的实体、关系和形容词,以及解释参考性内容。
  • 实现方式:利用意大利经典歌手的歌词进行训练,如De Andrè、Guccini等。

数据集3:推理和思维链

  • 目的:增强模型的推理能力。
  • 特点:使用谜题材料,如侦探谜题,以提高模型对文本细节的理解和情境模型的创建。

数据集质量标准(草案)

  • 主题相关性
  • 作者可信度
  • 推理难度

结论

  • 这些数据集旨在通过多语言和高质量的数据,提升大型语言模型的性能和应用范围。
  • 强调通过众包和专业注释者的合作,确保数据集的质量和多样性。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作