five

rus_rudeft_wcl-wiki

收藏
Hugging Face2025-11-04 更新2025-11-05 收录
下载链接:
https://huggingface.co/datasets/psytechlab/rus_rudeft_wcl-wiki
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于定义检测任务和术语及其定义识别的混合数据集,包含RuDEFT和WCL_Wiki_Ru两个数据集。数据集支持英语和俄语,包含id、text、definition_label等字段,并划分为训练集、验证集和测试集。
创建时间:
2025-10-25
原始信息汇总

数据集概述

基本信息

  • 数据集名称: psytechlab/rus_rudeft_wcl-wiki
  • 许可证: MIT
  • 语言: 英语(en)、俄语(ru)
  • 数据规模: 10K<n<100K
  • 下载大小: 4,397,440字节
  • 数据集大小: 14,318,359字节

任务类型

  • 文本分类
  • 标记分类

数据构成

数据划分

划分 样本数量 数据大小(字节)
训练集 6,231 12,400,016
验证集 418 799,399
测试集 651 1,118,944

特征字段

  • id: 字符串类型
  • text: 字符串类型
  • definition_label: 整型
  • source_file: 字符串类型
  • tokens: 字符串类型
  • iob_tags: 字符串类型
  • spans: 字符串类型
  • relations: 字符串类型
  • text_rus: 字符串类型
  • spans_rus: 字符串类型
  • relations_rus: 字符串类型
  • type: 字符串类型
  • is_gold: 浮点型
  • tags: 字符串类型
  • tokens_rus: 字符串类型
  • iob_tags_rus: 字符串类型
  • ner_tags: 字符串类型

数据集描述

用于定义检测任务以及术语和定义识别任务的数据集。该数据集是RuDEFT和WCL_Wiki_Ru两个数据集的混合。

引用信息

@article{Popov2025TransferringNL, title={Transferring Natural Language Datasets Between Languages Using Large Language Models for Modern Decision Support and Sci-Tech Analytical Systems}, author={Dmitrii Popov and Egor Terentev and Danil Serenko and Ilya Sochenkov and Igor Buyanov}, journal={Big Data and Cognitive Computing}, year={2025}, url={https://api.semanticscholar.org/CorpusID:278179500} }

搜集汇总
数据集介绍
main_image_url
构建方式
在术语定义识别研究领域,rus_rudeft_wcl-wiki数据集通过整合RuDEFT与WCL_Wiki_Ru两个核心资源构建而成。该过程采用多语言对齐策略,将原始俄语文本与英语译文并行处理,并标注了定义标签、命名实体边界及语义关系。数据划分严格遵循机器学习标准,形成包含6231条训练样本、418条验证样本与651条测试样本的层次化结构,确保了跨语言定义检测任务的完整性。
使用方法
针对定义检测与术语识别任务,研究者可分别利用text与text_rus字段进行单语言或对比分析。定义标签支持分类任务,而iob_tags与spans字段适用于序列标注模型训练。验证集与测试集的独立划分便于模型性能评估,通过加载标准数据分割可直接开展端到端的跨语言自然语言处理实验。
背景与挑战
背景概述
rus_rudeft_wcl-wiki数据集作为多语言自然语言处理研究的重要资源,由Dmitrii Popov等学者于2025年构建,整合了俄语定义检测任务(RuDEFT)与术语定义识别任务(WCL)的核心语料。该数据集聚焦于跨语言定义抽取与术语关系解析,通过融合英语与俄语的双语标注体系,为现代决策支持系统与科技分析工具提供了关键的语言理解基础。其构建标志着多语言知识迁移研究在斯拉夫语系的重要进展,推动了跨语言语义解析技术在学术文献与百科知识中的应用深度。
当前挑战
在定义检测领域,该数据集需应对术语边界模糊性与多义性表达的核心难题,例如俄语中格变化导致的定义结构变异问题。构建过程中,跨语言对齐成为主要障碍,包括英语与俄语定义句式的非对称转换、术语实体标注的一致性维护,以及机器翻译引入的语义失真现象。此外,原始语料的领域差异性要求标注系统兼顾科技文献与百科条目的语言特性,这对标注规范设计与质量验证提出了双重挑战。
常用场景
经典使用场景
在自然语言处理领域,rus_rudeft_wcl-wiki数据集作为定义检测与术语识别的关键资源,广泛应用于学术文本分析。该数据集融合了RuDEFT和WCL-Wiki-Ru的精华,通过标注文本中的定义标签、实体关系和命名实体,为研究者提供了丰富的多语言语料。其经典使用场景包括训练机器学习模型以自动识别科学文献中的术语定义,支持跨语言知识迁移研究,尤其在俄语和英语的并行文本处理中展现出独特价值。
解决学术问题
该数据集有效解决了自然语言处理中定义边界模糊和术语语义歧义等核心学术问题。通过提供精确的IOB标签和实体关系标注,它助力研究者开发更准确的序列标注模型,推动定义抽取技术的进步。其多语言特性为跨语言语义对齐研究提供了实验基础,显著提升了低资源语言处理任务的性能,对知识图谱构建和科技文献结构化具有深远影响。
实际应用
在实际应用中,rus_rudeft_wcl-wiki数据集支撑了现代决策支持系统的开发,特别是在科技分析领域。基于该数据集训练的模型能够自动提取技术文档中的关键定义,辅助专家快速梳理领域知识。其俄英双语标注还促进了跨国科技情报分析,为多语言信息检索系统和智能学术助手提供了可靠的数据基础,提升了知识管理的效率与准确性。
数据集最近研究
最新研究方向
在术语定义抽取领域,rus_rudeft_wcl-wiki数据集正推动跨语言知识迁移的前沿探索。该数据集融合俄英双语标注,支持定义检测与术语关系识别任务,为低资源语言处理提供了关键实验平台。当前研究聚焦于利用大语言模型实现语言间数据迁移,显著提升了俄语科技文献的自动化分析能力。这一进展直接服务于现代决策支持系统,通过跨语言语义对齐技术,解决了科技领域多语言知识融合的瓶颈问题,为构建全球化科学知识图谱奠定了技术基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作