opsci/Astree
收藏Hugging Face2023-07-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/opsci/Astree
下载链接
链接失效反馈官方服务:
资源简介:
Aſtrée数据集是一个包含2000条早期现代法语指令的集合,这些指令来源于162部1600年至1700年间出版的法国小说。该数据集可用于微调任何大型语言模型(LLM)以处理早期现代法语。所有指令都是从公共领域的作品中提取的一页摘录,可能包含OCR错误,但这些错误不会显著影响文本生成的质量。此外,数据集不仅具有文化相关性,还提供了一个很好的微调演示样本,即使是小规模的数据集也能显著改变LLM的输出。数据集名称的灵感来源于17世纪法国文学中最著名的小说之一《LAſtrée》。
--- 许可协议:CC0 1.0 ---
Aſtrée† 是一个收录2000条近代早期法语指令的数据集,其素材取自1600年至1700年间出版的162部法语小说。Aſtrée可用于针对近代早期法语语料对任意大语言模型(LLM)进行微调。
所有指令均从公有领域作品中提取单页节选生成,这些作品保留了历史手写体与传统印刷排版特征,可能存在OCR识别误差,但此类误差不会对文本生成质量造成显著负面影响。
除具备重要的文化研究价值外,Aſtrée亦是一款极佳的微调演示样本集:即便仅使用其中少量样本,也可大幅改变大语言模型的输出表现。
†*由于标题对带重音字符及历史长s存在字母数字限制,无法使用该数据集的正确名称。该名称显然灵感源自17世纪法国文学最负盛名的小说之一《L'Aſtrée》。*
提供机构:
opsci
原始信息汇总
数据集概述
数据集名称
- 名称: Aſtrée†
数据集内容
- 类型: 包含2000条早期现代法语指令
- 来源: 提取自162部1600年至1700年间出版的法语小说
数据集用途
- 目的: 用于微调大型语言模型(LLM)以适应早期现代法语
数据集特点
- 文本来源: 来自公共领域作品,包含历史书写和排版
- 潜在问题: 可能包含OCR错误,但对文本生成质量影响不大
- 样本效果: 即使是小样本也能显著改变LLM的输出
版权信息
- 许可证: CC0-1.0



