five

opsci/Astree

收藏
Hugging Face2023-07-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/opsci/Astree
下载链接
链接失效反馈
官方服务:
资源简介:
Aſtrée数据集是一个包含2000条早期现代法语指令的集合,这些指令来源于162部1600年至1700年间出版的法国小说。该数据集可用于微调任何大型语言模型(LLM)以处理早期现代法语。所有指令都是从公共领域的作品中提取的一页摘录,可能包含OCR错误,但这些错误不会显著影响文本生成的质量。此外,数据集不仅具有文化相关性,还提供了一个很好的微调演示样本,即使是小规模的数据集也能显著改变LLM的输出。数据集名称的灵感来源于17世纪法国文学中最著名的小说之一《LAſtrée》。

--- 许可协议:CC0 1.0 --- Aſtrée† 是一个收录2000条近代早期法语指令的数据集,其素材取自1600年至1700年间出版的162部法语小说。Aſtrée可用于针对近代早期法语语料对任意大语言模型(LLM)进行微调。 所有指令均从公有领域作品中提取单页节选生成,这些作品保留了历史手写体与传统印刷排版特征,可能存在OCR识别误差,但此类误差不会对文本生成质量造成显著负面影响。 除具备重要的文化研究价值外,Aſtrée亦是一款极佳的微调演示样本集:即便仅使用其中少量样本,也可大幅改变大语言模型的输出表现。 †*由于标题对带重音字符及历史长s存在字母数字限制,无法使用该数据集的正确名称。该名称显然灵感源自17世纪法国文学最负盛名的小说之一《L'Aſtrée》。*
提供机构:
opsci
原始信息汇总

数据集概述

数据集名称

  • 名称: Aſtrée†

数据集内容

  • 类型: 包含2000条早期现代法语指令
  • 来源: 提取自162部1600年至1700年间出版的法语小说

数据集用途

  • 目的: 用于微调大型语言模型(LLM)以适应早期现代法语

数据集特点

  • 文本来源: 来自公共领域作品,包含历史书写和排版
  • 潜在问题: 可能包含OCR错误,但对文本生成质量影响不大
  • 样本效果: 即使是小样本也能显著改变LLM的输出

版权信息

  • 许可证: CC0-1.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作