French Instruct

github2024-03-03 更新2024-05-31 收录

下载链接：

https://github.com/angeluriot/French_instruct

下载链接

链接失效反馈

官方服务：

资源简介：

The French Instruct dataset is a collection of instructions with their corresponding answers (sometimes multi-turn conversations) entirely in French.

法语指令数据集（French Instruct dataset）是一套全部以法语编写的指令及其对应答复的集合，其中部分答复以多轮对话形式呈现。

创建时间：

2024-02-29

原始信息汇总

法国指令数据集概述

数据集概览

名称: French Instruct
版本: v1.0
格式: JSONL
大小: 396MB
开放源代码: 是

数据集内容

描述: French Instruct数据集包含约276,000次用户与助手之间的对话，总计约8500万字。
语言: 法语
内容类型: 指令及其对应答案，包括多轮对话。

数据结构

数据记录结构: json { "context": "上下文信息", "conversation": [ { "role": "角色", "text": "对话内容" } ], "author": "作者类型", "style": "回答风格", "code": "是否包含代码", "source": "文档来源" }

数据来源

数据源分布:
- Evol Instruct: 56,747文档，约36,016,255字，占比42.42%
- Human ChatGPT Comparison Corpus: 82,729文档，约23,316,107字，占比27.46%
- Logic Inference OA: 54,542文档，约8,124,315字，占比9.57%
- Stanford Alpaca: 51,243文档，约5,521,752字，占比6.50%
- WikiHow FR: 2,156文档，约4,789,558字，占比5.64%
- Dolly: 14,896文档，约3,678,165字，占比4.33%
- Share GPT FR: 1,385文档，约1,301,026字，占比1.53%
- Grade School Math: 8,792文档，约1,263,370字，占比1.49%
- Less Is More for Alignment: 1,032文档，约581,897字，占比0.69%
- Aya Dataset FR: 1,412文档，约203,537字，占比0.24%
- Open Assistant Conversations FR: 255文档，约79,025字，占比0.09%
- ENS Sup Dataset: 383文档，约24,770字，占比0.03%
- GT Doremiti Instructions: 28文档，约6,314字，占比0.01%

数据集用途

主要用途: 用于训练和评估大型语言模型（LLMs）的对话能力。
其他用途: 通过附加的注释来分类人类编写的文本与生成的文本。

使用方法

通过Hugging Face: console pip install datasets

py from datasets import load_dataset dataset = load_dataset(angeluriot/french_instruct)
通过GitHub: py from load import load_dataset, merge_dataset dataset = load_dataset() merge_dataset()

示例

指令示例: yaml context: "" user: "转换18千米每秒为英里每小时。" assistant: "18千米每秒等于40,536.646英里每小时。"
代码示例: yaml context: "for i in range(10): x += 1" user: "重写代码以提高效率。" assistant: "你可以简化代码如下：x += 10"
多轮对话示例: yaml context: "" user: "你知道Bellevue WA的Nuodle吗？" assistant: "是的，Nuodle是一家位于华盛顿州Bellevue的餐厅，位于14603 NE 20th St, Bellevue, WA 98007。"

搜集汇总

数据集介绍

构建方式

French Instruct数据集的构建基于多源数据的整合与优化。该数据集主要通过对多个公开数据集进行翻译、清理和过滤，确保所有内容均为法语。具体而言，数据集涵盖了从Evol Instruct、Human ChatGPT Comparison Corpus、Stanford Alpaca等知名数据集中提取的内容，并通过ChatGPT API将其翻译为法语。此外，数据集还进行了去重、去除空对话以及清理残留英文文本等操作，以确保数据的高质量与一致性。

使用方法

French Instruct数据集的使用方式灵活多样，主要通过Hugging Face平台或GitHub仓库进行加载。用户可通过Hugging Face的`datasets`库直接加载数据集，或从GitHub下载后使用提供的`load.py`脚本进行加载与合并。数据集以JSONL格式存储，每条记录包含上下文、对话内容及元信息，便于用户进行进一步的分析与处理。无论是用于模型训练、文本分类，还是多轮对话生成，该数据集均提供了丰富的资源支持。

背景与挑战

背景概述

French Instruct数据集由Angel Uriot创建，旨在为法语自然语言处理任务提供高质量的指令与对话数据。该数据集包含约27.6万条对话，总计约8500万词元，涵盖了多种主题和任务类型。数据集的主要来源包括Evol Instruct、Human ChatGPT Comparison Corpus、Stanford Alpaca等多个知名数据集，并通过ChatGPT API进行了法语翻译与清理。该数据集的发布为法语大语言模型的训练与评估提供了重要资源，推动了法语自然语言处理领域的发展。

当前挑战

French Instruct数据集在构建过程中面临多重挑战。首先，数据来源的多样性要求对原始数据进行翻译与清理，以确保法语文本的准确性与一致性。其次，数据集需区分人类撰写与机器生成的内容，这对标注工作提出了较高要求。此外，数据集中包含多轮对话与代码片段，增加了数据处理的复杂性。在应用层面，如何有效利用该数据集训练出能够理解并生成自然法语对话的模型，仍是一个亟待解决的技术难题。

常用场景

经典使用场景

French Instruct数据集在自然语言处理领域中被广泛用于训练和评估法语对话模型。其包含的27.6万条对话和约8500万词汇量为研究者提供了丰富的语料资源，特别适用于多轮对话生成、指令理解和响应生成等任务。该数据集的结构化标注信息，如对话风格、代码内容等，为模型训练提供了额外的筛选维度，使得研究者能够针对特定需求进行定制化训练。

解决学术问题

French Instruct数据集有效解决了法语自然语言处理研究中数据稀缺的问题。通过整合多种来源的法语对话数据，该数据集为研究者提供了高质量的法语语料，支持了对话生成、文本分类、指令理解等多个研究方向。其标注信息还帮助研究者区分人类生成文本与机器生成文本，为文本生成质量评估提供了重要依据。该数据集的出现推动了法语自然语言处理领域的发展，填补了法语对话数据集的空白。

实际应用

在实际应用中，French Instruct数据集被广泛用于开发法语智能助手、客户服务机器人和教育类应用。基于该数据集训练的模型能够准确理解法语指令并生成自然流畅的响应，适用于多种场景，如在线客服、语言学习辅助和日常信息查询。其包含的代码相关对话还为技术支持和编程教育类应用提供了宝贵的训练资源，提升了法语技术文档的自动生成和解释能力。

数据集最近研究