opsci/Astree

Name: opsci/Astree
Creator: opsci
Published: 2023-07-20 14:16:23
License: 暂无描述

Hugging Face2023-07-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/opsci/Astree

下载链接

链接失效反馈

官方服务：

资源简介：

Aſtrée数据集是一个包含2000条早期现代法语指令的集合，这些指令来源于162部1600年至1700年间出版的法国小说。该数据集可用于微调任何大型语言模型（LLM）以处理早期现代法语。所有指令都是从公共领域的作品中提取的一页摘录，可能包含OCR错误，但这些错误不会显著影响文本生成的质量。此外，数据集不仅具有文化相关性，还提供了一个很好的微调演示样本，即使是小规模的数据集也能显著改变LLM的输出。数据集名称的灵感来源于17世纪法国文学中最著名的小说之一《LAſtrée》。

--- 许可协议：CC0 1.0 --- Aſtrée† 是一个收录2000条近代早期法语指令的数据集，其素材取自1600年至1700年间出版的162部法语小说。Aſtrée可用于针对近代早期法语语料对任意大语言模型（LLM）进行微调。所有指令均从公有领域作品中提取单页节选生成，这些作品保留了历史手写体与传统印刷排版特征，可能存在OCR识别误差，但此类误差不会对文本生成质量造成显著负面影响。除具备重要的文化研究价值外，Aſtrée亦是一款极佳的微调演示样本集：即便仅使用其中少量样本，也可大幅改变大语言模型的输出表现。 †*由于标题对带重音字符及历史长s存在字母数字限制，无法使用该数据集的正确名称。该名称显然灵感源自17世纪法国文学最负盛名的小说之一《L'Aſtrée》。*

提供机构：

opsci

原始信息汇总

数据集概述

数据集名称

名称: Aſtrée†

数据集内容

类型: 包含2000条早期现代法语指令
来源: 提取自162部1600年至1700年间出版的法语小说

数据集用途

目的: 用于微调大型语言模型（LLM）以适应早期现代法语

数据集特点

文本来源: 来自公共领域作品，包含历史书写和排版
潜在问题: 可能包含OCR错误，但对文本生成质量影响不大
样本效果: 即使是小样本也能显著改变LLM的输出

版权信息

许可证: CC0-1.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集