EtymologyTaggerDataset

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://huggingface.co/datasets/MarcusBennevall/EtymologyTaggerDataset

下载链接

链接失效反馈

官方服务：

资源简介：

English Etymology Tagger Dataset 是一个从 Wiktionary 条目中提取并经过精炼的英语词源标注数据集，数据来源于 Kaikki 提供的机器可读 JSONL 格式。原始数据包含 1,465,676 个英语条目，经过筛选和处理后，最终用于训练和评估的数据点为 83,204 个。数据集统计显示，前 10 大源语言包括拉丁语（23.24%）、英语（20.54%）、法语（16.35%）等，同时标注了单词的词源机制，如借用（56.34%）、派生（44.81%）等。数据经过语言整合、标签阈值处理、排除非词源标签等步骤，并对高频类别进行了随机欠采样以缓解不平衡问题。该数据集适用于词源分类和文本分类任务，但需注意其仅反映 Wiktionary 模板中的主要词源路径，可能无法涵盖复杂术语的所有历史细节。

The English Etymology Tagger Dataset is a refined English etymology tagging dataset extracted from Wiktionary entries, sourced from machine-readable JSONL format provided by Kaikki. The original data contains 1,465,676 English entries, which are filtered and processed to yield 83,204 data points for training and evaluation. The dataset statistics show the top 10 source languages including Latin (23.24%), English (20.54%), French (16.35%), etc., and also tags the etymological mechanisms of words, such as borrowing (56.34%), derivation (44.81%), etc. The data has undergone language consolidation, label thresholding, exclusion of non-etymological tags, and random undersampling of high-frequency categories to alleviate imbalance issues. This dataset is suitable for etymology classification and text classification tasks, but it should be noted that it only reflects the main etymological paths in Wiktionary templates and may not cover all historical details of complex terms.

创建时间：

2026-05-08

原始信息汇总

数据集概述：English Etymology Tagger Dataset

基本信息

数据集名称：English Etymology Tagger Dataset
许可证：CC-BY-SA-4.0
语言：英语
任务类别：词元分类（token-classification）、文本分类（text-classification）
数据集大小：102,111 条记录（训练集）

数据来源

数据来源于 Kaikki 平台发布的英语维基词典（Wiktionary）条目，经过 wiktextract 工具解析后提取出包含词源模板的条目。原始数据包含 1,465,676 条英语条目，最终提取出 102,111 条有效记录。

数据特征

每条记录包含以下字段：

word：单词（字符串）
display_word：显示用单词（字符串）
parts_of_speech：词性（字符串序列）
etymology_texts：词源文本（字符串序列）
pairs：词源对列表，每个词源对包含：
- mechanism：词源机制
- source_language：源语言
- source_code：源语言代码
- source_term：源语言词条
- template：词源模板
- detail：详细信息
source_languages：源语言列表（字符串序列）
mechanisms：词源机制列表（字符串序列）

词源机制分布

数据集将词源归为四种主要机制（一个词可能有多个标签）：

机制	频次	占比
借词（borrowed）	57,530	56.34%
派生（derived）	45,760	44.81%
继承（inherited）	18,032	17.66%
仿译（calqued）	2,231	2.18%

注：占比总和超过100%，因为一个词可能有多个词源标签。

源语言分布（前10名）

语言	频次	占比
拉丁语（合并）	23,728	23.24%
英语（合并）	20,974	20.54%
法语（合并）	16,694	16.35%
希腊语（合并）	10,074	9.87%
德语（合并）	7,300	7.15%
汉语（合并）	5,017	4.91%
意大利语	4,729	4.63%
原始日耳曼语（合并）	4,692	4.59%
西班牙语	4,628	4.53%
原始印欧语	4,097	4.01%
其他（所有低于1%的语言）	30,339	29.71%

数据处理与规范化

语言合并：将常见的历史和区域变体映射到其主要语系，以减少稀疏性。合并的语系包括：拉丁语、英语、法语、德语、希腊语、汉语、荷兰语、苏格兰语和原始日耳曼语。
排除项：移除非词源标签（如“跨语言”）或结构上空的模板。

局限性

数据集仅反映维基词典模板中记录的主要词源路径，可能无法涵盖复杂词汇的全部历史细节。

搜集汇总

数据集介绍

构建方式

该数据集源自Kaikki项目对英语维基词典的机器可解析JSONL文件，初始包含1,465,676条英语词条。通过wiktextract工具解析词源模板，筛选出102,111条具有完整词源信息的条目。在构建过程中，对语言名称进行了语言学归并处理，将常见历史变体与方言映射至主语言家族，以降低数据稀疏性。同时剔除了如“跨语言”等非词源标签及结构空洞的模板，最终形成以词源记录为核心的JSONL格式数据集，涵盖单词、词性、词源文本、源语言及词源机制等结构化字段。

特点

该数据集的核心特点在于其精细的词源标注体系，每个词条不仅包含源语言信息，还通过四种机制（借用、派生、继承、仿译）对词源路径进行分类，反映了词汇在历史演变中的多样互动。源语言分布显示拉丁语（23.24%）、英语（20.54%）和法语（16.35%）占据主导，而继承与借用机制的高频出现（合计超74%）揭示了英语作为混合语言的特质。数据集的浓缩设计使得复杂词源关系得以结构化呈现，为历史语言学与计算词源学研究提供了高价值的标注资源。

使用方法

该数据集适用于多种自然语言处理任务，包括词性标注、词源标签分类及序列标注。用户可直接使用默认配置加载'train'分片中的'etymology_records.jsonl'文件，通过字段'word'获取目标词，利用'pairs'字段中的'mechanism'和'source_language'进行词源机制与源语言的多标签分类建模。此外，'etymology_texts'字段可支持文本生成或词源解释任务。建议研究者结合语言归并后的家族标签，针对借用或派生等特定机制构建子集，以深入探索英语词汇的源流与演化模式。

背景与挑战

背景概述

词源学作为历史语言学的重要分支，致力于探究词汇的起源、演变路径及其跨语言流动轨迹。然而，长期以来，词源研究高度依赖专家手工考据，缺乏大规模、结构化的机器可读数据集，限制了计算语言学与自然语言处理在历史词汇分析领域的发展。为应对这一不足，EtymologyTaggerDataset 应运而生，该数据集由研究团队基于英语维基词典的条目，借助 wiktextract 工具对机器可读的 Kaikki JSONL 文件进行自动化解析与精炼而成，创建时间集中于2020年代初期。其核心研究问题在于如何从大规模词典文本中提取并结构化词源信息，从而支撑词源标记、历史语言溯源与语言接触分析等任务。该数据集收录逾十万条高质量词源记录，详细标注了借词、派生、继承、仿译等演变机制及对应源语言分布。凭借其开源的许可协议与系统化的数据架构，该数据集正逐步成为计算词源学与语言演变研究领域的基础资源。

当前挑战

EtymologyTaggerDataset 所面临的挑战首先体现在所解决的领域问题上：词源标记与历史语言溯源属于细粒度的序列标注与语义解析任务，其核心难点在于词源演变路径往往具有多重交织性，一个词汇可能同时包含借词、派生与继承等多种机制，且源语言归属常受历史变迁、拼写变体及语言接触影响而难以唯一确定。此外，构建过程亦面临严峻挑战：原始维基词典条目中存在大量非词源标签、结构性空模板以及跨语言歧义项，需要设计复杂的过滤与归一化规则；同时，高频语言（如拉丁语、法语）与低频语种之间的数据极度不均衡，需通过语言族合并策略缓解稀疏性问题；当前版本仅能反映模板中记录的主要词源路径，无法涵盖复杂术语的全部历史细节与细微演变，模型在实际应用中存在泛化不足的风险。

常用场景

经典使用场景

EtymologyTaggerDataset作为一部融合语言历史与计算分析的杰作，在词汇渊源标注任务中熠熠生辉。该数据集聚焦于英语词汇的语源分类，涵盖借词、派生词、继承词及仿译词四大机制，并细致标注了源语言分布，如拉丁语、法语、希腊语等。研究者可基于此训练序列标注模型，为给定词汇自动标注其语源路径，从而在数字人文领域揭示语言演化的脉络。这一经典使用场景不仅服务于历史语言学学者，更为自然语言处理中词汇理解任务注入时间维度的洞察，使机器能捕捉词语跨越千年的文化迁徙痕迹。

衍生相关工作

EtymologyTaggerDataset的问世催生了一系列创新性延展工作。在模型层面，研究者基于其机制标签（borrowed、derived等）训练出最早的英语语源序列标注模型，并将其整合进Wiktextract工具链，提升了在线词典的自动标注精度。在理论层面，该数据集启发了跨语言语源对比研究，他人利用其源语言分布统计特征，构建了语言亲缘关系预测模型，验证了历史语言学中的接触假设。此外，该数据集与LLAMA等预训练模型结合，衍生出语源感知的词向量表示方法，在词汇语义相似度任务上取得突破，展现了历史信息对现代NLP的深层裨益。

数据集最近研究