mrinaldi/Proposte_LLM
收藏Hugging Face2024-03-03 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/mrinaldi/Proposte_LLM
下载链接
链接失效反馈官方服务:
资源简介:
该数据集提案旨在创建用于训练和微调大型语言模型(LLM)的高质量、多语言数据集,特别是针对意大利语。提案包括创建问答对数据集、文本理解数据集以及推理和思维链数据集。作者强调了当前数据集的问题,如过度依赖英语和文化偏见,并提出了通过众包等方式收集高质量数据的建议。
该数据集提案旨在创建用于训练和微调大型语言模型(LLM)的高质量、多语言数据集,特别是针对意大利语。提案包括创建问答对数据集、文本理解数据集以及推理和思维链数据集。作者强调了当前数据集的问题,如过度依赖英语和文化偏见,并提出了通过众包等方式收集高质量数据的建议。
提供机构:
mrinaldi
原始信息汇总
数据集概述
许可证信息
- 许可证类型:CC BY 4.0
- 许可证链接:https://creativecommons.org/licenses/by/4.0/deed.en
数据集目的
- 用于训练和微调大型语言模型(LLM)的数据集创建提案。
- 强调数据集的质量和多语言特性,特别是意大利语,但潜在适用于其他语言和地区。
数据集类型
- 小规模、特定、精心策划的数据集:适用于微调阶段,而非大规模训练。
数据集1:问题/回答对(Instruction Fine-Tuning)
-
学术领域:
- 目的:提供模型必要的抽象能力,以便在受到询问时进行回答。
- 特点:强调复杂问题的详细和深入回答。
- 实现方式:通过众包平台,鼓励学生上传基于其大学笔记或知识的问答对。
- 优先考虑复杂、具体且涉及一定推理的学术问题。
-
通用领域:
- 涵盖广泛的任务,如故事生成、诗歌创作、社交媒体帖子描述、电子邮件撰写、广告口号等。
- 挑战:可能包含个人观点、偏见、伦理考虑和质量问题。
- 实现方式:通过众包,尝试简化任务,如文本摘要、风格转换、简单问答等。
数据集2:文本理解
- 目的:提高模型对复杂文本的理解能力。
- 特点:包括列出文本中的实体、关系和形容词,以及解释参考性内容。
- 实现方式:利用意大利经典歌手的歌词进行训练,如De Andrè、Guccini等。
数据集3:推理和思维链
- 目的:增强模型的推理能力。
- 特点:使用谜题材料,如侦探谜题,以提高模型对文本细节的理解和情境模型的创建。
数据集质量标准(草案)
- 主题相关性
- 作者可信度
- 推理难度
结论
- 这些数据集旨在通过多语言和高质量的数据,提升大型语言模型的性能和应用范围。
- 强调通过众包和专业注释者的合作,确保数据集的质量和多样性。



