SynTerm
收藏arXiv2025-10-08 更新2025-10-10 收录
下载链接:
https://huggingface.co/datasets/ElenaSenger/SynTerm
下载链接
链接失效反馈官方服务:
资源简介:
SynTerm是一个用于自动术语提取(ATE)的合成数据集,由MaiNLP、LMU慕尼黑大学信息与语言处理中心和Fraunhofer IMW国际管理与知识经济中心联合创建。该数据集包含来自七个不同领域的数据,包括生物医学、腐败、马术、心力衰竭、海岸地理、计算语言学和风能,旨在解决多领域ATE场景的挑战。数据集大小为83261条数据,来源于The Pile和arXiv摘要,并通过LLM进行伪标签生成。该数据集可用于训练和评估ATE模型,以提高跨领域鲁棒性和文档级一致性。
SynTerm is a synthetic dataset for automatic term extraction (ATE), jointly created by MaiNLP, the Center for Information and Language Processing at LMU Munich, and Fraunhofer IMW Center for International Management and Knowledge Economy. This dataset covers data from seven distinct domains, namely biomedicine, corruption, equestrianism, heart failure, coastal geography, computational linguistics, and wind energy, aiming to address the challenges in multi-domain ATE scenarios. It contains 83,261 data entries, sourced from The Pile and arXiv abstracts, with pseudo-labels generated using large language models (LLMs). This dataset can be employed to train and evaluate ATE models, thereby improving cross-domain robustness and document-level consistency.
提供机构:
MaiNLP, Center for Information and Language Processing, LMU Munich, Germany; Fraunhofer Center for International Management and Knowledge Economy IMW, Germany; Department of Computer Science, IT University of Copenhagen, Denmark
创建时间:
2025-10-08
原始信息汇总
SynTerm数据集概述
基本信息
- 数据集名称: SynTerm
- 许可证: CC-BY-NC-4.0
数据集描述
- 类型: 合成数据集
- 用途: 术语抽取
- 数据来源:
- Universal-NER
- Pile-NER-type
- ArXiv
搜集汇总
数据集介绍

构建方式
在自动术语抽取领域面临标注资源稀缺的背景下,SynTerm数据集通过远程监督框架构建而成。该数据集融合了基于The Pile语料的命名实体识别数据与arXiv学术摘要,采用GPT-4o生成伪标签并经过实体类型过滤,最终形成包含83,261个实例的多领域术语库。其构建过程特别注重领域多样性,通过注入arXiv的学科分类标签增强术语的领域相关性,同时采用人工与模型协同标注策略平衡质量与覆盖范围。
特点
SynTerm数据集展现出显著的跨领域泛化能力,覆盖生物医学、计算语言学、风能等七个异质领域。其术语标注遵循ISO 1087标准,严格区分专业概念与命名实体,确保术语边界的准确性。数据集采用文档级与语料级双重标注体系,支持细粒度术语一致性分析。特别值得注意的是,该数据集通过领域感知的数据增强技术,在保持术语质量的同时实现了语义空间的广泛覆盖。
使用方法
该数据集适用于跨领域术语抽取模型的训练与评估,支持指令微调与少样本学习两种典型范式。研究人员可通过标准化的对话模板将术语抽取任务转化为文本生成任务,利用领域标签实现可控的术语提取。在模型部署阶段,可结合文档级与语料级一致性后处理启发式规则,通过术语重复检测与全局频率验证提升抽取一致性。评估时建议同步采用文档级和语料级指标,以全面衡量模型在真实场景下的术语识别能力。
背景与挑战
背景概述
自动术语抽取作为自然语言处理的核心任务,其发展长期受限于人工标注成本与领域迁移难题。2025年由慕尼黑大学与弗劳恩霍夫研究所联合发布的SynTerm数据集,通过大语言模型生成跨领域伪标签,构建了涵盖生物医学、风能科学等七大学科的大规模术语库。该研究提出的DiSTER框架首次实现了无需人工标注的术语抽取范式,为知识图谱构建与专利分析等下游任务提供了可扩展的解决方案。
当前挑战
在领域问题层面,传统术语抽取方法面临标注资源稀缺与领域适应性不足的双重困境,尤其难以处理专业术语的语义歧义与领域特异性。在构建过程中,SynTerm需应对实体类型标注的一致性验证难题,针对13,020种实体类型仅能通过混合人工与GPT-4o标注确保质量;同时还需平衡通用领域与科学文献的数据分布,通过arXiv摘要增强与领域提示策略缓解术语相关性漂移问题。
常用场景
经典使用场景
在自然语言处理领域,术语自动抽取是构建知识图谱和专利分析系统的核心环节。SynTerm数据集通过整合七个跨领域语料,为模型训练提供了丰富的语义环境,其典型应用场景包括在生物医学、风能技术等专业文本中精准识别领域特定术语,有效支撑多领域术语抽取任务的基准评估。
解决学术问题
该数据集显著缓解了传统术语抽取方法对人工标注数据的过度依赖,通过远程监督机制生成大规模伪标注数据,突破了领域迁移的瓶颈。其构建策略解决了跨领域术语识别中标注资源稀缺的经典难题,为术语抽取模型的泛化能力评估提供了标准化测试平台,推动了无监督与弱监督学习方法的发展。
衍生相关工作
基于SynTerm的蒸馏框架DiSTER催生了系列创新研究,包括将伪标注策略扩展至低资源语言的术语挖掘任务。其构建方法启发了UniversalNER等工作的跨领域实体识别研究,并为MetaIE等元学习框架提供了术语抽取模块的设计范式,形成了一套可复用的跨领域信息抽取技术体系。
以上内容由遇见数据集搜集并总结生成



