small-models-for-glam/synthetic-parsed-names-yaml

Name: small-models-for-glam/synthetic-parsed-names-yaml
Creator: small-models-for-glam
Published: 2026-05-04 13:29:20
License: 暂无描述

Hugging Face2026-05-04 更新2025-10-25 收录

下载链接：

https://hf-mirror.com/datasets/small-models-for-glam/synthetic-parsed-names-yaml

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含对话信息，每个示例包括内容和角色两个字段，内容为对话文本，角色为对话中的角色标识。数据集分为训练集，共有499996个示例，总大小为108108984字节。

The dataset contains conversation information, with each example including content and role fields, where content is the text of the conversation and role is the identifier of the speaker in the conversation. The dataset is split into a training set with a total of 499996 examples and a size of 108108984 bytes.

提供机构：

small-models-for-glam

搜集汇总

数据集介绍

构建方式

该数据集由耶鲁大学LUX平台团队精心构建，旨在解决文化遗产领域中复杂历史姓名字符串的结构化解析难题。基于Python脚本，利用Faker库与自定义的CulturalHeritageProvider类，系统生成了约50万条涵盖英语、法语、德语、意大利语、阿拉伯语及中文等多语种命名惯例与限定词的合成样本。每条样本都模拟了真实档案中非结构化的历史名称（含头衔、日期与后缀），并配有对应的严苛YAML结构化输出，从而为小型开源语言模型的监督微调提供了高质量的训练数据。

特点

数据集的核心特性在于其高度专业化的合成性与领域针对性。所有名称均通过算法随机生成，不涉及任何真实人物或敏感信息，这规避了隐私与版权风险。同时，数据集精心模仿了不同历史时期与地域下丰富的命名变体，如“Duke”、“Comte”、“le Jeune”、“circa”等特定头衔与限定词，有效捕获了文化遗产数据中常见的混乱与本地化特征。这使得训练出的模型在解析复杂历史名称时，能实现高达94-96%的准确率，远超通用商业模型。

使用方法

数据集采用标准的对话式格式（messages列表），适用于聊天模型的监督微调（SFT）。每条样本包含两条词典：用户消息提供待解析的非结构化姓名（如“Cynthia Ponce'Hayes (born 1633), born 1633”），助手消息则返回结构化的YAML区块，内含first_name、last_name、middle_names、temporal、titles与extra_info等字段。使用者可直接将其用于训练小型模型（如Qwen 0.5B至4B参数级别），以在本地高效、低成本地完成文化遗产领域的实体抽取任务，且能够处理不规范的JSON输出问题。

背景与挑战

背景概述

在文化遗产数字化的浪潮中，处理非结构化历史名称数据是构建可靠知识图谱的核心挑战之一。耶鲁大学LUX平台团队于近期创建了名为synthetic-parsed-names-yaml的数据集，旨在解决文化遗产机构（GLAM领域）中人物记录的去重与结构化数据摄入问题。该数据集由耶鲁大学LUX平台团队精心打造，生成了约50万条复杂的非结构化历史名称与结构化YAML格式的配对样本，用于微调轻量级开源大语言模型（如Qwen 0.5B至4B参数级别）。通过模拟不同历史时期与地域的命名惯例，该数据集显著提升了模型在文化背景名称解析中的精度，为大规模文化遗产数据的自动化处理提供了经济且高效的解决方案，相关模型已在对超过300万条历史记录的结构化任务中达到94%至96%的准确率。

当前挑战

该数据集所面临的核心挑战首先源于领域问题的复杂性：文化遗产中的名称结构高度变异，涉及多语言（英、法、德、意、阿拉伯及中文）的称谓、时间限定词及社会头衔，通用前沿模型在处理此类非标准输入时准确率仅约70%，且易产生语法错误的输出。在构建过程中，团队需克服合成数据与现实边缘案例之间的鸿沟，尽管引入了自定义CulturalHeritageProvider扩展Faker库以模拟真实多样性，但仍需确保合成的字符串能精准覆盖330万条真实档案记录中所有潜在的异常结构。此外，模型在训练中对特定限定符（如‘flourished’）可能产生拼写错误，而合成数据固有的系统性偏差也要求持续的校准与验证，以维持其在GLAM场景中高精度的实用价值。

常用场景

经典使用场景

在文化遗产与数字人文领域，实体解析与姓名消歧始终是结构化的核心瓶颈。该数据集专为微调轻量级开源大语言模型而设计，通过将近50万条非结构化的历史人名与结构化YAML表示一一配对，赋能模型精准抽取姓名组件——包括名、姓、中间名、生卒年代、头衔及附加说明。这一经典场景的核心在于，利用合成数据弥合档案文本的混沌性与机器可读的条理性之间的鸿沟，尤其适用于中小参数模型（0.5B至4B规模）的任务定制化训练。

衍生相关工作

基于该数据集，研究团队相继推出了专用于人名解析的系列微调模型，在HuggingFace上公开发布了基于Qwen 0.8B、2B及4B基座的三个变体。这些衍生工作不仅验证了合成数据驱动小模型在狭义抽取任务上达到94%至96%准确率的可行性，还激发了将同类范式迁移至其他实体类型（如地名、机构名、艺术品创作信息）解析的研究方向。此外，该数据集采用的CulturalHeritageProvider类与Faker扩展框架，已成为文化遗产NLP社区构建可控合成训练数据的参考范例，推动了领域专用工具链的迭代与共享。

数据集最近研究