rus_rudeft_wcl-wiki

Hugging Face2025-11-04 更新2025-11-05 收录

下载链接：

https://huggingface.co/datasets/psytechlab/rus_rudeft_wcl-wiki

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于定义检测任务和术语及其定义识别的混合数据集，包含RuDEFT和WCL_Wiki_Ru两个数据集。数据集支持英语和俄语，包含id、text、definition_label等字段，并划分为训练集、验证集和测试集。

创建时间：

2025-10-25

原始信息汇总

数据集概述

基本信息

数据集名称: psytechlab/rus_rudeft_wcl-wiki
许可证: MIT
语言: 英语(en)、俄语(ru)
数据规模: 10K<n<100K
下载大小: 4,397,440字节
数据集大小: 14,318,359字节

任务类型

文本分类
标记分类

数据构成

数据划分

划分	样本数量	数据大小(字节)
训练集	6,231	12,400,016
验证集	418	799,399
测试集	651	1,118,944

特征字段

id: 字符串类型
text: 字符串类型
definition_label: 整型
source_file: 字符串类型
tokens: 字符串类型
iob_tags: 字符串类型
spans: 字符串类型
relations: 字符串类型
text_rus: 字符串类型
spans_rus: 字符串类型
relations_rus: 字符串类型
type: 字符串类型
is_gold: 浮点型
tags: 字符串类型
tokens_rus: 字符串类型
iob_tags_rus: 字符串类型
ner_tags: 字符串类型

数据集描述

用于定义检测任务以及术语和定义识别任务的数据集。该数据集是RuDEFT和WCL_Wiki_Ru两个数据集的混合。

引用信息

@article{Popov2025TransferringNL, title={Transferring Natural Language Datasets Between Languages Using Large Language Models for Modern Decision Support and Sci-Tech Analytical Systems}, author={Dmitrii Popov and Egor Terentev and Danil Serenko and Ilya Sochenkov and Igor Buyanov}, journal={Big Data and Cognitive Computing}, year={2025}, url={https://api.semanticscholar.org/CorpusID:278179500} }

搜集汇总

数据集介绍

构建方式

在术语定义识别研究领域，rus_rudeft_wcl-wiki数据集通过整合RuDEFT与WCL_Wiki_Ru两个核心资源构建而成。该过程采用多语言对齐策略，将原始俄语文本与英语译文并行处理，并标注了定义标签、命名实体边界及语义关系。数据划分严格遵循机器学习标准，形成包含6231条训练样本、418条验证样本与651条测试样本的层次化结构，确保了跨语言定义检测任务的完整性。

使用方法

针对定义检测与术语识别任务，研究者可分别利用text与text_rus字段进行单语言或对比分析。定义标签支持分类任务，而iob_tags与spans字段适用于序列标注模型训练。验证集与测试集的独立划分便于模型性能评估，通过加载标准数据分割可直接开展端到端的跨语言自然语言处理实验。

背景与挑战

背景概述

rus_rudeft_wcl-wiki数据集作为多语言自然语言处理研究的重要资源，由Dmitrii Popov等学者于2025年构建，整合了俄语定义检测任务（RuDEFT）与术语定义识别任务（WCL）的核心语料。该数据集聚焦于跨语言定义抽取与术语关系解析，通过融合英语与俄语的双语标注体系，为现代决策支持系统与科技分析工具提供了关键的语言理解基础。其构建标志着多语言知识迁移研究在斯拉夫语系的重要进展，推动了跨语言语义解析技术在学术文献与百科知识中的应用深度。

当前挑战

在定义检测领域，该数据集需应对术语边界模糊性与多义性表达的核心难题，例如俄语中格变化导致的定义结构变异问题。构建过程中，跨语言对齐成为主要障碍，包括英语与俄语定义句式的非对称转换、术语实体标注的一致性维护，以及机器翻译引入的语义失真现象。此外，原始语料的领域差异性要求标注系统兼顾科技文献与百科条目的语言特性，这对标注规范设计与质量验证提出了双重挑战。

常用场景

经典使用场景

在自然语言处理领域，rus_rudeft_wcl-wiki数据集作为定义检测与术语识别的关键资源，广泛应用于学术文本分析。该数据集融合了RuDEFT和WCL-Wiki-Ru的精华，通过标注文本中的定义标签、实体关系和命名实体，为研究者提供了丰富的多语言语料。其经典使用场景包括训练机器学习模型以自动识别科学文献中的术语定义，支持跨语言知识迁移研究，尤其在俄语和英语的并行文本处理中展现出独特价值。

解决学术问题

该数据集有效解决了自然语言处理中定义边界模糊和术语语义歧义等核心学术问题。通过提供精确的IOB标签和实体关系标注，它助力研究者开发更准确的序列标注模型，推动定义抽取技术的进步。其多语言特性为跨语言语义对齐研究提供了实验基础，显著提升了低资源语言处理任务的性能，对知识图谱构建和科技文献结构化具有深远影响。

实际应用

在实际应用中，rus_rudeft_wcl-wiki数据集支撑了现代决策支持系统的开发，特别是在科技分析领域。基于该数据集训练的模型能够自动提取技术文档中的关键定义，辅助专家快速梳理领域知识。其俄英双语标注还促进了跨国科技情报分析，为多语言信息检索系统和智能学术助手提供了可靠的数据基础，提升了知识管理的效率与准确性。

数据集最近研究