German derivative dataset

github2024-02-09 更新2024-05-31 收录

下载链接：

https://github.com/AnnaKenter/DerivativeCorpusGerman

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从Reddit收集的德语派生词及其上下文信息，用于微调BERT模型以进行派生词预测任务。数据集包括派生词的词缀、基础词、频率、是否存在于DeReKo词典中、词干、词缀类型以及上下文列表。

This dataset comprises German-derived words and their contextual information collected from Reddit, intended for fine-tuning BERT models for the task of derived word prediction. The dataset includes affixes of derived words, base words, frequency, presence in the DeReKo dictionary, stems, types of affixes, and a list of contexts.

创建时间：

2024-02-09

原始信息汇总

数据集概述

数据集名称

Derivative Corpus in German

数据集来源

该数据集来源于Reddit上的德语衍生词数据。

数据集用途

主要用于微调BERT模型以进行衍生词预测任务。

数据获取

数据可通过以下链接下载：10.5281/zenodo.10637528

数据处理步骤

下载Reddit数据：从此处下载Reddit评论数据至reddit文件夹。
过滤德语内容：使用Fasttext模型lid.176.bin过滤出德语评论。
搜索衍生词：运行scripts/get_derivatives.py脚本，生成包含衍生词信息的Excel文件。
合并数据：运行scripts/join_data.py脚本，合并每月/年的衍生词数据。
数据分割：运行scripts/finetuning_prep.py脚本，将数据分割为训练/测试/开发集。

数据集内容

每个Excel文件包含以下信息：

词缀（affix）
词根（base）
频率（count）
是否在DeReKo词汇中（in_lexica）
词干（stem）
词缀类型（mode）
上下文（context）

特殊说明

若不使用BERT模型，可调整scripts/utils_reddit.py中的check_token_stem_for_bert和token_in_bert方法，跳过“finetuning prep”步骤。

搜集汇总

数据集介绍

构建方式

German derivative dataset的构建过程始于从Reddit平台下载大量评论数据，这些数据以压缩文件形式存储，并按年份和月份命名。随后，通过Fasttext语言识别模型筛选出德语评论，确保数据集的语种一致性。接着，利用自定义脚本在筛选后的德语评论中搜索派生词，并生成包含派生词及其相关信息的Excel表格。最后，通过合并各月份的派生词表格，并进一步划分为训练集、测试集和开发集，完成了数据集的构建。

特点

该数据集的核心特点在于其专注于德语派生词的上下文语境分析。每个派生词条目均包含词缀、词基、词频、是否存在于DeReKo词典、词干、派生模式以及上下文语境等详细信息。此外，数据集特别设计用于BERT模型的微调，支持按上下文或派生词进行数据划分，为自然语言处理任务提供了丰富的训练和测试资源。

使用方法

使用German derivative dataset时，用户需首先安装Python 3.9并配置相关依赖。接着，下载并处理Reddit评论数据，筛选出德语内容，并提取派生词信息。若用户仅关注派生词本身，可通过修改脚本中的相关方法，跳过BERT词汇检查步骤。对于需要微调BERT模型的用户，可进一步执行数据划分步骤，生成训练集、测试集和开发集，以便进行模型训练和评估。

背景与挑战

背景概述

German derivative dataset 是一个专注于德语派生词的语料库，其数据来源于Reddit平台的评论内容。该数据集由研究人员于近期创建，旨在为BERT模型的派生词预测任务提供微调数据。通过从Reddit中提取德语评论，并结合DeReKo词典进行派生词的识别与分类，该数据集为自然语言处理领域中的词形变化研究提供了重要资源。其核心研究问题在于如何通过上下文语境准确识别和预测德语中的派生词，从而提升语言模型的语义理解能力。该数据集的发布不仅推动了德语派生词研究的发展，也为多语言自然语言处理模型的优化提供了新的视角。

当前挑战

German derivative dataset 在构建与应用过程中面临多重挑战。首先，从Reddit平台提取德语评论并进行语言过滤需要高效的文本识别技术，以确保数据的准确性与代表性。其次，派生词的识别与分类依赖于复杂的词形变化规则，如何在大量文本中准确捕捉这些变化成为一大难题。此外，数据集的构建还需考虑与BERT模型的兼容性，确保派生词能够被模型有效识别与处理。在应用层面，如何将数据集有效分割为训练集、测试集和验证集，以支持模型的微调与评估，也是研究者需要解决的关键问题。这些挑战不仅考验了数据处理技术的精度，也对自然语言处理模型的适应性提出了更高要求。

常用场景

经典使用场景

German derivative dataset 主要用于德语派生词的上下文分析，特别是在社交媒体平台Reddit上的德语评论中。该数据集通过从Reddit评论中提取德语派生词，为研究者提供了一个丰富的语料库，用于分析德语派生词的形成、使用频率及其在不同语境中的变化。

实际应用

在实际应用中，German derivative dataset 可用于改进德语自然语言处理系统的性能，特别是在派生词识别和语义分析方面。例如，该数据集可以用于训练和优化机器翻译系统，使其能够更准确地处理德语中的派生词。此外，该数据集还可用于社交媒体分析，帮助理解德语用户在社交媒体上的语言使用习惯。

衍生相关工作

基于German derivative dataset，研究者们已经开展了一系列相关工作，特别是在德语派生词预测和BERT模型微调方面。这些工作不仅推动了德语自然语言处理技术的发展，还为其他语言的派生词研究提供了参考。例如，一些研究利用该数据集开发了新的派生词识别算法，进一步提高了派生词预测的准确性和效率。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集