small-models-for-glam/synthetic-parsed-names-yaml
收藏Hugging Face2026-05-04 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/small-models-for-glam/synthetic-parsed-names-yaml
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含对话信息,每个示例包括内容和角色两个字段,内容为对话文本,角色为对话中的角色标识。数据集分为训练集,共有499996个示例,总大小为108108984字节。
The dataset contains conversation information, with each example including content and role fields, where content is the text of the conversation and role is the identifier of the speaker in the conversation. The dataset is split into a training set with a total of 499996 examples and a size of 108108984 bytes.
提供机构:
small-models-for-glam
搜集汇总
数据集介绍

构建方式
该数据集由耶鲁大学LUX平台团队精心构建,旨在解决文化遗产领域中复杂历史姓名字符串的结构化解析难题。基于Python脚本,利用Faker库与自定义的CulturalHeritageProvider类,系统生成了约50万条涵盖英语、法语、德语、意大利语、阿拉伯语及中文等多语种命名惯例与限定词的合成样本。每条样本都模拟了真实档案中非结构化的历史名称(含头衔、日期与后缀),并配有对应的严苛YAML结构化输出,从而为小型开源语言模型的监督微调提供了高质量的训练数据。
特点
数据集的核心特性在于其高度专业化的合成性与领域针对性。所有名称均通过算法随机生成,不涉及任何真实人物或敏感信息,这规避了隐私与版权风险。同时,数据集精心模仿了不同历史时期与地域下丰富的命名变体,如“Duke”、“Comte”、“le Jeune”、“circa”等特定头衔与限定词,有效捕获了文化遗产数据中常见的混乱与本地化特征。这使得训练出的模型在解析复杂历史名称时,能实现高达94-96%的准确率,远超通用商业模型。
使用方法
数据集采用标准的对话式格式(messages列表),适用于聊天模型的监督微调(SFT)。每条样本包含两条词典:用户消息提供待解析的非结构化姓名(如“Cynthia Ponce'Hayes (born 1633), born 1633”),助手消息则返回结构化的YAML区块,内含first_name、last_name、middle_names、temporal、titles与extra_info等字段。使用者可直接将其用于训练小型模型(如Qwen 0.5B至4B参数级别),以在本地高效、低成本地完成文化遗产领域的实体抽取任务,且能够处理不规范的JSON输出问题。
背景与挑战
背景概述
在文化遗产数字化的浪潮中,处理非结构化历史名称数据是构建可靠知识图谱的核心挑战之一。耶鲁大学LUX平台团队于近期创建了名为synthetic-parsed-names-yaml的数据集,旨在解决文化遗产机构(GLAM领域)中人物记录的去重与结构化数据摄入问题。该数据集由耶鲁大学LUX平台团队精心打造,生成了约50万条复杂的非结构化历史名称与结构化YAML格式的配对样本,用于微调轻量级开源大语言模型(如Qwen 0.5B至4B参数级别)。通过模拟不同历史时期与地域的命名惯例,该数据集显著提升了模型在文化背景名称解析中的精度,为大规模文化遗产数据的自动化处理提供了经济且高效的解决方案,相关模型已在对超过300万条历史记录的结构化任务中达到94%至96%的准确率。
当前挑战
该数据集所面临的核心挑战首先源于领域问题的复杂性:文化遗产中的名称结构高度变异,涉及多语言(英、法、德、意、阿拉伯及中文)的称谓、时间限定词及社会头衔,通用前沿模型在处理此类非标准输入时准确率仅约70%,且易产生语法错误的输出。在构建过程中,团队需克服合成数据与现实边缘案例之间的鸿沟,尽管引入了自定义CulturalHeritageProvider扩展Faker库以模拟真实多样性,但仍需确保合成的字符串能精准覆盖330万条真实档案记录中所有潜在的异常结构。此外,模型在训练中对特定限定符(如‘flourished’)可能产生拼写错误,而合成数据固有的系统性偏差也要求持续的校准与验证,以维持其在GLAM场景中高精度的实用价值。
常用场景
经典使用场景
在文化遗产与数字人文领域,实体解析与姓名消歧始终是结构化的核心瓶颈。该数据集专为微调轻量级开源大语言模型而设计,通过将近50万条非结构化的历史人名与结构化YAML表示一一配对,赋能模型精准抽取姓名组件——包括名、姓、中间名、生卒年代、头衔及附加说明。这一经典场景的核心在于,利用合成数据弥合档案文本的混沌性与机器可读的条理性之间的鸿沟,尤其适用于中小参数模型(0.5B至4B规模)的任务定制化训练。
衍生相关工作
基于该数据集,研究团队相继推出了专用于人名解析的系列微调模型,在HuggingFace上公开发布了基于Qwen 0.8B、2B及4B基座的三个变体。这些衍生工作不仅验证了合成数据驱动小模型在狭义抽取任务上达到94%至96%准确率的可行性,还激发了将同类范式迁移至其他实体类型(如地名、机构名、艺术品创作信息)解析的研究方向。此外,该数据集采用的CulturalHeritageProvider类与Faker扩展框架,已成为文化遗产NLP社区构建可控合成训练数据的参考范例,推动了领域专用工具链的迭代与共享。
数据集最近研究
最新研究方向
该数据集聚焦于文化遗产领域中复杂历史姓名的结构化解析,通过合成数据微调小型开源语言模型,实现了对非结构化姓名字符串的高精度组分隔离。在数字人文与GLAM(画廊、图书馆、档案馆、博物馆)机构的数据治理前沿,命名实体识别(NER)任务长期面临语种杂糅、头衔日期交错等挑战,而大型商业模型的高成本与低结构一致性严重制约了规模化去重与结构化入库。本研究巧妙利用Faker库扩展文化生成函数,模拟英、法、德、意、阿、中六种语系的历史命名规则与限定特征,构建了约50万对质量达标的训练样本。通过SFT范式驱动Qwen系列参数量0.5B至4B的模型训练,将解析准确率从71%跃升至94-96%,且输出严格合规的YAML格式,显著降低了文化遗产元数据清洗的算力门槛与金钱开销。该路径不仅为耶鲁大学LUX平台超300万个人物记录的去重提供了工程化解决方案,更开创了一种低成本、高保真的小型模型定制范式,有力推动了数字人文领域数据基础设施的民主化进程。
以上内容由遇见数据集搜集并总结生成



