Ead-Instruct-16k

Hugging Face2024-12-21 更新2024-12-22 收录

下载链接：

https://huggingface.co/datasets/Geraldine/Ead-Instruct-16k

下载链接

链接失效反馈

官方服务：

资源简介：

EAD-Instruct-16k数据集旨在微调大型语言模型（LLMs）以处理编码档案描述（EAD）XML文件。该数据集包含通过结合真实EAD/XML数据和使用生成语言模型生成的合成数据创建的提示-完成对。每个条目是一个JSON对象，包含'tag'、'strategy'、'prompt'和'completion'字段。数据集的目标是训练LLMs准确生成、分析和操作EAD/XML元数据，确保模式合规性。数据集包含约16,000个提示-完成对，并以JSONL格式提供。此外，还有一个更轻量级的版本Ead-Instruct-12k可供使用。

创建时间：

2024-12-15

原始信息汇总

EAD-Instruct-16k 数据集

数据集概述

EAD-Instruct-16k 数据集旨在微调大型语言模型（LLMs）以处理 Encoded Archival Description（EAD）XML 文件。EAD 是一种用于编码档案查找工具的 XML 标准格式，在档案科学中管理和共享元数据方面至关重要。

该数据集由通过混合方法生成的提示-完成对组成，结合了：

真实世界的 EAD/XML 数据：完整且符合模式的 EAD 文件。
合成数据生成：使用生成语言模型（gpt-4o-mini）基于预定义策略创建的指令-完成对，以确保 XML 标签和元数据的全面覆盖。

该数据集的主要目标是训练 LLMs 以准确生成、分析和操作 EAD/XML 元数据，使其更擅长支持档案专业人员和需要精确模式合规性的应用程序。

数据集详情

数据格式

数据集中的每个条目都是一个 JSON 对象，包含以下字段：

tag：目标的 XML 标签或子标签（例如，<ead>，<repository>）。
strategy：用于生成提示-完成对的策略。策略包括：
- Open-Ended Prompts
- Template-Based Prompts
- Partial XML Prompts
- Instruction with Schema Emphasis
prompt：用于指导模型的输入提示。
completion：符合 EAD/XML 模式的预期完成输出。

示例条目：

json { "tag": "<ead>", "strategy": "Open-Ended Prompts", "prompt": "Generate a complete EAD record for an archival collection.", "completion": "<ead id="b1933186"><eadheader countryencoding="iso3166-1" dateencoding="iso8601" langencoding="iso639-2b" relatedencoding="dc" repositoryencoding="iso15511" scriptencoding="iso15924">...</eadheader><archdesc level="fonds">...</archdesc></ead>" }

数据生成过程

系统提示：使用专门的系统提示来指导生成模型。系统提示强调：
- XML 标签的全面覆盖。
- 模式合规性。
- 通过多种策略实现指令-完成对的多样性。
真实数据：解析并规范化符合模式的 EAD/XML 文件，以确保有效性和一致性。
合成数据：使用生成模型为真实数据中的每个 XML 标签创建合成提示-完成对。策略包括开放式生成、模板创建、部分片段的完成和模式聚焦的指令。
验证：生成的数据经过验证，确保符合 EAD/XML 标准。错误和不一致性被记录以供审查。

数据量

数据集包含约 16,000 个提示-完成对，每个 XML 标签通过多种策略生成多个示例，以确保模型训练的鲁棒性。

数据集统计

文件来源：来自法国 Inventaires du Catalogue général des manuscrits (CGM)（BnF）的 EAD/XML 文件：https://api.bnf.fr/fr/CCFr/CGM。
总样本数：数据集包含 175,410 个示例，涵盖四个提示-完成类别。

数据生成笔记本

该数据集已使用此 Kaggle Notebook 生成。

使用场景

该数据集可用于微调 LLMs 以执行以下任务：

档案元数据生成：创建符合模式的 EAD/XML 记录。
元数据完成：填充不完整 XML 片段中缺失的属性或子元素。
模板创建：生成 EAD/XML 标签的模板。
模式验证：训练模型以验证 XML 文件是否符合 EAD 模式。

结构

数据集以 JSONL（JSON Lines）格式提供，其中每行代表一个单独的提示-完成对。

示例 JSONL 文件

json { {"tag": "<ead>", "strategy": "Open-Ended Prompts", "prompt": "Generate a complete EAD record for an archival collection.", "completion": "<ead id="b1933186"><eadheader ...</eadheader><archdesc level="fonds">...</archdesc></ead>"} {"tag": "<repository>", "strategy": "Template-Based Prompts", "prompt": "Generate a template for the <repository> tag with placeholder attributes.", "completion": "<repository code="[PLACEHOLDER]">[PLACEHOLDER]</repository>"} }

可用数据集

另一个更轻量且更平衡的版本的数据集可用：

Ead-Instruct-12k：包含 12,000 条记录的子集。

引用

如果您在研究或应用程序中使用此数据集，请按如下方式引用：

@dataset{ead_instruct_16k, author = {Geraldine}, title = {EAD-Instruct-16k}, year = {2024}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/Geraldine/Ead-Instruct-16k} }

致谢

该数据集使用来自 Inventaires du Catalogue général des manuscrits (CGM)（BnF）收藏的 EAD/XML 文件创建。

许可证

该数据集在 MIT 许可证下发布。有关详细信息，请参阅 LICENSE 文件。

联系方式

如有问题、反馈或数据集问题，请联系：

姓名：Géraldine Geoffroy
电子邮件：grldn.geoffroy@gmail.com
GitHub：https://github.com/gegedenice

搜集汇总

数据集介绍

构建方式

该数据集的构建采用了混合方法，结合了真实世界的EAD/XML数据和合成数据生成。首先，从法国国家图书馆的`Inventaires du Catalogue général des manuscrits (CGM)`集合中获取了完整的、符合架构的EAD文件。随后，利用生成语言模型`gpt-4o-mini`基于预定义的策略生成了指令-完成对，确保对XML标签和元数据的全面覆盖。生成的数据经过验证，确保符合EAD/XML标准，从而保证了数据的有效性和一致性。

使用方法

该数据集适用于微调大型语言模型（LLMs）以处理EAD/XML文件，支持多种任务，包括档案元数据生成、元数据补全、模板创建和架构验证。用户可以通过JSONL格式访问数据集，每行代表一个指令-完成对。数据集的多样性和全面性使其成为训练模型在档案科学领域中处理精确架构合规任务的理想选择。

背景与挑战

背景概述

Ead-Instruct-16k数据集旨在为大型语言模型（LLMs）提供微调支持，使其能够处理Encoded Archival Description（EAD）XML文件。EAD是档案学中用于编码档案查找工具的标准XML格式，对于管理和共享档案元数据至关重要。该数据集由真实EAD/XML数据和基于生成语言模型（如`gpt-4o-mini`）生成的合成数据组成，通过多种策略确保对XML标签和元数据的全面覆盖。其核心研究问题在于如何使LLMs能够准确生成、分析和操作EAD/XML元数据，从而提升档案专业人员的工作效率和应用的精确性。该数据集的创建时间为2024年，主要研究人员为Géraldine Geoffroy，数据来源于法国国家图书馆的`Inventaires du Catalogue général des manuscrits (CGM)`收藏。

当前挑战

Ead-Instruct-16k数据集面临的挑战主要集中在两个方面。首先，构建过程中需要确保生成的数据完全符合EAD/XML标准，这要求对生成的数据进行严格的验证和校正。其次，由于EAD/XML格式的复杂性和多样性，如何通过合成数据生成策略覆盖所有可能的XML标签和元数据场景，是一个技术上的难点。此外，数据集的多样性和覆盖范围需要通过多种生成策略来实现，这增加了数据生成的复杂性和计算资源的消耗。最后，如何在保证数据质量的同时，确保数据集的规模足够大以支持有效的模型训练，也是该数据集面临的一个重要挑战。

常用场景

经典使用场景

Ead-Instruct-16k数据集的经典使用场景主要集中在对大型语言模型（LLMs）进行微调，以处理和生成符合Encoded Archival Description（EAD）XML标准的元数据。通过该数据集，模型能够学习如何生成、分析和操作EAD/XML文件，从而在档案管理领域中提供精确的元数据生成和处理能力。

解决学术问题

该数据集解决了在档案学和信息管理领域中，如何高效且准确地生成和管理EAD/XML元数据的学术问题。通过提供大量的提示-完成对，模型能够学习到如何生成符合EAD标准的XML文件，这对于确保档案数据的结构化和标准化具有重要意义，同时也为相关研究提供了丰富的数据支持。

实际应用

在实际应用中，Ead-Instruct-16k数据集可用于训练模型以生成符合EAD/XML标准的档案元数据，这对于档案管理系统和数字图书馆等应用场景至关重要。此外，该数据集还可用于元数据补全、模板生成以及XML文件的验证，从而提高档案数据的管理效率和准确性。

数据集最近研究