five

louisbrulenaudet/code-forestier

收藏
Hugging Face2023-12-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/louisbrulenaudet/code-forestier
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 language: - fr multilinguality: - monolingual tags: - finetuning - legal - french law - droit français - Code forestier source_datasets: - original pretty_name: Code forestier task_categories: - text-generation - table-question-answering - summarization - conversational size_categories: - 1K<n<10K --- # Code forestier, non-instruct (11-12-2023) This project focuses on fine-tuning pre-trained language models to create efficient and accurate models for legal practice. Fine-tuning is the process of adapting a pre-trained model to perform specific tasks or cater to particular domains. It involves adjusting the model's parameters through a further round of training on task-specific or domain-specific data. While conventional fine-tuning strategies involve supervised learning with labeled data, instruction-based fine-tuning introduces a more structured and interpretable approach. Instruction-based fine-tuning leverages the power of human-provided instructions to guide the model's behavior. These instructions can be in the form of text prompts, prompts with explicit task descriptions, or a combination of both. This approach allows for a more controlled and context-aware interaction with the LLM, making it adaptable to a multitude of specialized tasks. Instruction-based fine-tuning significantly enhances the performance of LLMs in the following ways: - Task-Specific Adaptation: LLMs, when fine-tuned with specific instructions, exhibit remarkable adaptability to diverse tasks. They can switch seamlessly between translation, summarization, and question-answering, guided by the provided instructions. - Reduced Ambiguity: Traditional LLMs might generate ambiguous or contextually inappropriate responses. Instruction-based fine-tuning allows for a clearer and more context-aware generation, reducing the likelihood of nonsensical outputs. - Efficient Knowledge Transfer: Instructions can encapsulate domain-specific knowledge, enabling LLMs to benefit from expert guidance. This knowledge transfer is particularly valuable in fields like tax practice, law, medicine, and more. - Interpretability: Instruction-based fine-tuning also makes LLM behavior more interpretable. Since the instructions are human-readable, it becomes easier to understand and control model outputs. - Adaptive Behavior: LLMs, post instruction-based fine-tuning, exhibit adaptive behavior that is responsive to both explicit task descriptions and implicit cues within the provided text. ## Dataset generation This JSON file is a list of dictionaries, each dictionary contains the following fields: - `instruction`: `string`, presenting the instruction linked to the element. - `input`: `string`, signifying the input details for the element. - `output`: `string`, indicating the output information for the element. We used the following list of instructions for generating the dataset: ```python instructions = [ "Compose l'intégralité de l'article sous forme écrite.", "Écris la totalité du contenu de l'article.", "Formule la totalité du texte présent dans l'article.", "Produis l'intégralité de l'article en écriture.", "Développe l'article dans son ensemble par écrit.", "Génère l'ensemble du texte contenu dans l'article.", "Formule le contenu intégral de l'article en entier.", "Rédige la totalité du texte de l'article en entier.", "Compose l'intégralité du contenu textuel de l'article.", "Rédige l'ensemble du texte qui constitue l'article.", "Formule l'article entier dans son contenu écrit.", "Composez l'intégralité de l'article sous forme écrite.", "Écrivez la totalité du contenu de l'article.", "Formulez la totalité du texte présent dans l'article.", "Développez l'article dans son ensemble par écrit.", "Générez l'ensemble du texte contenu dans l'article.", "Formulez le contenu intégral de l'article en entier.", "Rédigez la totalité du texte de l'article en entier.", "Composez l'intégralité du contenu textuel de l'article.", "Écrivez l'article dans son intégralité en termes de texte.", "Rédigez l'ensemble du texte qui constitue l'article.", "Formulez l'article entier dans son contenu écrit.", "Composer l'intégralité de l'article sous forme écrite.", "Écrire la totalité du contenu de l'article.", "Formuler la totalité du texte présent dans l'article.", "Produire l'intégralité de l'article en écriture.", "Développer l'article dans son ensemble par écrit.", "Générer l'ensemble du texte contenu dans l'article.", "Formuler le contenu intégral de l'article en entier.", "Rédiger la totalité du texte de l'article en entier.", "Composer l'intégralité du contenu textuel de l'article.", "Rédiger l'ensemble du texte qui constitue l'article.", "Formuler l'article entier dans son contenu écrit.", "Quelles sont les dispositions de l'article ?", "Quelles dispositions sont incluses dans l'article ?", "Quelles sont les dispositions énoncées dans l'article ?", "Quel est le texte intégral de l'article ?", "Quelle est la lettre de l'article ?" ] ``` ## Citing this project If you use this code in your research, please use the following BibTeX entry. ```BibTeX @misc{louisbrulenaudet2023, author = {Louis Brulé Naudet}, title = {Code forestier, non-instruct (11-12-2023)}, howpublished = {\url{https://huggingface.co/datasets/louisbrulenaudet/code-forestier}}, year = {2023} } ``` ## Feedback If you have any feedback, please reach out at [louisbrulenaudet@icloud.com](mailto:louisbrulenaudet@icloud.com).
提供机构:
louisbrulenaudet
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache 2.0
  • 语言: 法语
  • 多语言性: 单语种
  • 标签: 微调, 法律, 法国法律, 法国法律, 森林法典
  • 源数据集: 原始数据
  • 任务类别: 文本生成, 表格问答, 摘要, 对话
  • 数据集大小: 1K<n<10K

数据集生成

  • 数据格式: JSON文件,包含字典列表,每个字典包含以下字段:

    • instruction: 字符串,表示与元素相关的指令。
    • input: 字符串,表示元素的输入细节。
    • output: 字符串,表示元素的输出信息。
  • 生成指令列表: python instructions = [ "Compose lintégralité de larticle sous forme écrite.", "Écris la totalité du contenu de larticle.", "Formule la totalité du texte présent dans larticle.", "Produis lintégralité de larticle en écriture.", "Développe larticle dans son ensemble par écrit.", "Génère lensemble du texte contenu dans larticle.", "Formule le contenu intégral de larticle en entier.", "Rédige la totalité du texte de larticle en entier.", "Compose lintégralité du contenu textuel de larticle.", "Rédige lensemble du texte qui constitue larticle.", "Formule larticle entier dans son contenu écrit.", "Composez lintégralité de larticle sous forme écrite.", "Écrivez la totalité du contenu de larticle.", "Formulez la totalité du texte présent dans larticle.", "Développez larticle dans son ensemble par écrit.", "Générez lensemble du texte contenu dans larticle.", "Formulez le contenu intégral de larticle en entier.", "Rédigez la totalité du texte de larticle en entier.", "Composez lintégralité du contenu textuel de larticle.", "Écrivez larticle dans son intégralité en termes de texte.", "Rédigez lensemble du texte qui constitue larticle.", "Formulez larticle entier dans son contenu écrit.", "Composer lintégralité de larticle sous forme écrite.", "Écrire la totalité du contenu de larticle.", "Formuler la totalité du texte présent dans larticle.", "Produire lintégralité de larticle en écriture.", "Développer larticle dans son ensemble par écrit.", "Générer lensemble du texte contenu dans larticle.", "Formuler le contenu intégral de larticle en entier.", "Rédiger la totalité du texte de larticle en entier.", "Composer lintégralité du contenu textuel de larticle.", "Rédiger lensemble du texte qui constitue larticle.", "Formuler larticle entier dans son contenu écrit.", "Quelles sont les dispositions de larticle ?", "Quelles dispositions sont incluses dans larticle ?", "Quelles sont les dispositions énoncées dans larticle ?", "Quel est le texte intégral de larticle ?", "Quelle est la lettre de larticle ?" ]

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作