louisbrulenaudet/dac6-instruct

Name: louisbrulenaudet/dac6-instruct
Creator: louisbrulenaudet
Published: 2023-12-12 16:58:21
License: 暂无描述

Hugging Face2023-12-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/louisbrulenaudet/dac6-instruct

下载链接

链接失效反馈

官方服务：

资源简介：

DAC6指令数据集专注于通过微调预训练语言模型来创建高效且准确的税务实践模型。该数据集基于欧洲理事会2018年5月25日发布的关于跨境安排信息自动和强制交换的指令（DAC6）。数据集采用基于指令的微调方法，通过人类提供的指令来指导模型的行为，从而增强模型在任务特定适应、减少歧义、高效知识传递、可解释性和自适应行为等方面的表现。数据集以JSON格式存储，每个字典包含指令、输入和输出三个字段。

提供机构：

louisbrulenaudet

原始信息汇总

DAC6 instruct (11-12-2023)

数据集概述

许可证: Apache-2.0
语言: 法语
多语言性: 单语种
标签: 微调, 法律, 税务, 大语言模型, 财政, CGI, DAC6
源数据集: 原始数据
任务类别: 文本生成, 表格问答, 摘要, 对话
数据集大小: 少于1K

数据集描述

“DAC 6” 指的是欧洲理事会指令 (EU) 2018/822，于2018年5月25日发布，涉及跨境安排的自动和强制性信息交换。该指令旨在加强欧盟国家税务管理机构之间在潜在激进税务规划安排方面的合作。

该项目专注于微调预训练语言模型，以创建高效且准确的税务实践模型。

微调方法

微调是通过在特定任务或领域数据上进一步训练来调整预训练模型参数的过程。传统的微调策略涉及使用标记数据进行监督学习，而基于指令的微调引入了一种更结构化和可解释的方法。

基于指令的微调利用人类提供的指令来指导模型的行为。这些指令可以是文本提示、带有明确任务描述的提示或两者的组合。这种方法使得大语言模型（LLM）能够适应多种专业任务，实现更受控和上下文感知的交互。

基于指令的微调显著提升了LLM的性能，具体表现在：

任务特定适应性: LLM在特定指令下表现出对多样任务的显著适应性，能够无缝切换翻译、摘要和问答等任务。
减少歧义: 传统的LLM可能生成模糊或上下文不适当的响应。基于指令的微调允许更清晰和上下文感知的生成，减少无意义输出的可能性。
高效知识转移: 指令可以封装领域特定知识，使LLM受益于专家指导。这种知识转移在税务实践、法律、医学等领域尤为宝贵。
可解释性: 基于指令的微调也使LLM行为更可解释。由于指令是人类可读的，理解和控制模型输出变得更加容易。
适应性行为: 经过基于指令微调的LLM表现出对明确任务描述和提供文本中隐含线索的响应性适应行为。

数据集结构

该JSON文件是一个字典列表，每个字典包含以下字段：

instruction: 字符串，表示与元素相关的指令。
input: 字符串，表示元素的输入细节。
output: 字符串，表示元素的输出信息。

5,000+

优质数据集

54 个

任务类型

进入经典数据集