lemone-docs-embedded

Hugging Face2024-10-28 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/louisbrulenaudet/lemone-docs-embedded

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个为法国税务定制的预构建嵌入数据集，专门用于大规模税务相关语料库的信息检索。该数据集在包含4300万标记的数据集上进行了微调，结合了GPT-4 Turbo和Llama 3.1 70B生成的半合成和全合成数据。该模型旨在提高税务领域法律流程的效率和准确性，支持生产就绪的检索增强生成（RAG）应用的实施。数据集包含文本、主标题、子ID、源页面URL、发布日期、哈希值和lemone_pro嵌入等特征。数据集为法语，属于税务、法律、财政、法律和税务等标签。

This is a pre-built embedding dataset customized for French taxation, specifically tailored for information retrieval across large-scale tax-related corpora. Fine-tuned on a 43-million-token corpus, it incorporates semi-synthetic and fully synthetic data generated by GPT-4 Turbo and Llama 3.1 70B. The model derived from this dataset aims to enhance the efficiency and accuracy of legal procedures in the taxation domain, supporting the implementation of production-ready Retrieval-Augmented Generation (RAG) applications. The dataset includes features such as text, main title, sub-ID, source page URL, release date, hash value, and lemone_pro embeddings. Available in French, the dataset is categorized under tags including taxation, law, finance, legal affairs, and tax-related topics.

创建时间：

2024-10-26

原始信息汇总

Lemone-embeded dataset for French tax RAG over legal documents

数据集描述

数据集名称: Lemone-embeded dataset for French tax RAG over legal documents
数据集大小: 187,013,397 字节
下载大小: 119,486,532 字节
样本数量: 16,073
语言: 法语
任务类别: 问答系统
标签: 税务、法律、财政、法律、税收
许可证: Apache 2.0

数据集特征

text: 文本内容，类型为字符串
title_main: 主要标题，类型为字符串
id_sub: 子ID，类型为字符串
url_sourcepage: 源页面URL，类型为字符串
date_publication: 发布日期，类型为字符串
hash: 哈希值，类型为字符串
lemone_pro_embeddings: Lemone-pro嵌入向量，类型为浮点数序列

数据集配置

配置名称: default
数据文件路径: data/train-*

数据集用途

主要用途: 用于法语税务法律文档的检索增强生成（RAG）应用
模型: 基于Alibaba-NLP/gte-multilingual-base微调的sentence-transformers模型
嵌入维度: 768维
应用场景: 语义文本相似度、语义搜索、释义挖掘、文本分类、聚类等

数据集生成

模型训练数据: 包含4300万tokens的数据集，结合GPT-4 Turbo和Llama 3.1 70B生成的半合成和全合成数据，经过evol-instruction调优和手动筛选
推荐集成: 通过ChromaDB向量存储库进行集成，以优化RAG管道

引用

BibTeX @misc{louisbrulenaudet2024, author = {Louis Brulé Naudet}, title = {Lemone-Embed: A Series of Fine-Tuned Embedding Models for French Taxation}, year = {2024} howpublished = {url{https://huggingface.co/datasets/louisbrulenaudet/lemone-embed-pro}}, }

搜集汇总

数据集介绍

构建方式

该数据集的构建基于法国税务领域的法律文档，通过Lemone-embed-pro模型生成嵌入向量。模型在包含4300万令牌的数据集上进行微调，结合了GPT-4 Turbo和Llama 3.1 70B生成的半合成和全合成数据，并经过进化指令调优和人工筛选。数据集的构建过程包括从多个来源提取法律文本，生成嵌入向量，并整合为统一的格式，以支持大规模税务信息检索。

特点

该数据集的特点在于其专注于法国税务领域的法律文档，提供了丰富的文本信息及其对应的嵌入向量。数据集包含文本、标题、子ID、源页面URL、发布日期和哈希值等特征，嵌入向量为768维的密集向量，适用于语义文本相似性、语义搜索、文本分类等多种任务。数据集的设计旨在支持生产级的检索增强生成（RAG）应用，提升税务法律信息处理的效率和准确性。

使用方法

该数据集的使用方法主要通过与向量数据库（如ChromaDB）集成，构建检索增强生成（RAG）管道。用户可以通过加载数据集，使用预训练的Lemone-embed-pro模型生成嵌入向量，并将其存储到向量数据库中。随后，用户可以利用这些嵌入向量进行语义搜索、文本分类等任务。数据集的使用代码示例提供了详细的步骤，帮助用户快速上手并应用于实际场景。

背景与挑战

背景概述

Lemone-docs-embedded数据集由Louis Brulé Naudet于2024年创建，专注于法国税务领域的法律文档处理。该数据集基于Alibaba-NLP/gte-multilingual-base模型进行微调，生成了768维的密集向量空间，旨在支持大规模税务相关语料库的信息检索。数据集包含43百万个标记，结合了GPT-4 Turbo和Llama 3.1 70B生成的半合成和全合成数据，并通过evol-instruction调优和人工筛选进一步优化。其核心研究问题在于提升税务法律文档的检索增强生成（RAG）应用效率，推动法律自然语言处理研究的发展。

当前挑战

Lemone-docs-embedded数据集在构建和应用过程中面临多重挑战。首先，税务法律文档的复杂性和专业性要求模型具备极高的语义理解能力，以确保检索结果的准确性和相关性。其次，数据集的构建依赖于大规模合成数据的生成与筛选，如何平衡数据多样性与质量成为关键问题。此外，模型在GPU资源有限的环境下的部署与优化也带来了技术挑战，如何在保证性能的同时降低计算成本是亟待解决的难题。最后，法律领域的动态更新要求数据集具备持续更新的能力，以保持其在实际应用中的时效性和实用性。

常用场景

经典使用场景

Lemone-docs-embedded数据集在法国税务领域的法律文档检索与生成任务中展现了其经典应用场景。通过预训练的嵌入模型，该数据集能够高效地处理大规模税务相关文本，支持语义搜索、文本分类和聚类等任务。特别是在构建检索增强生成（RAG）应用时，该数据集能够显著提升信息检索的准确性和效率，为法律专业人士提供强有力的技术支持。

解决学术问题

Lemone-docs-embedded数据集解决了法律自然语言处理领域中的多个关键问题。首先，它通过精细调校的嵌入模型，提升了法律文本的语义理解能力，使得复杂的税务文档能够被更准确地解析和检索。其次，该数据集为研究人员提供了一个高质量的法语税务文本资源，推动了法律信息检索和生成技术的进一步发展，填补了该领域的研究空白。

衍生相关工作

基于Lemone-docs-embedded数据集，研究人员和开发者已经衍生出多项经典工作。例如，一些研究团队利用该数据集开发了针对法国税务的智能检索系统，显著提升了法律文档的检索效率。此外，该数据集还被用于训练和评估多种法律文本生成模型，推动了法律自然语言处理技术的创新与发展。这些衍生工作进一步拓展了该数据集的应用范围，为法律科技领域注入了新的活力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集