lexica-corpus

github2022-03-01 更新2024-05-31 收录

下载链接：

https://github.com/fhewett/lexica-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自三个德语维基百科的文本：MiniKlexikon、Klexikon和Wikipedia。这些文章由志愿者创建，可协作编写和改进。Klexikon面向6至12岁儿童，MiniKlexikon则针对初学者读者，提供更简单的版本。数据集反映了由于目标群体不同而产生的三种不同的概念复杂度级别。

This dataset comprises texts from three German Wikipedia sources: MiniKlexikon, Klexikon, and Wikipedia. These articles are created by volunteers and can be collaboratively written and improved. Klexikon is aimed at children aged 6 to 12, while MiniKlexikon offers a simpler version for beginner readers. The dataset reflects three distinct levels of conceptual complexity due to the differing target audiences.

创建时间：

2021-08-13

原始信息汇总

lexica-corpus 数据集概述

数据集内容

来源: 包含来自三个德语维基百科的文本：MiniKlexikon, Klexikon, 和 Wikipedia。
目标群体:
- MiniKlexikon: 初学者读者儿童
- Klexikon: 6至12岁儿童
- Wikipedia: 成人
数据集结构:
- 原始研究数据集: 每个子数据集包含295篇文章，位于orig_files文件夹。
- 扩展版本: 截至2021年8月，每个子数据集约1000篇文章，文件名为miniklexi_corpus.txt, klexi_corpus.txt, wiki_corpus.txt。

数据集格式

段落结束符号:
- MiniKlexikon 和 Klexikon: <eop>
- Wikipedia: *

数据集统计

子数据集	平均文章长度	平均句子长度
MiniKlexikon	134.86	9.57
Klexikon	305.45	13.29
Wikipedia	169.89	18.41

使用方法

更新数据集: 运行build.sh脚本。
自定义操作: 使用python parse_lexica.py脚本，支持创建新数据集、检查Wikipedia歧义等操作。

许可证

Klexikon 和 MiniKlexikon: CC BY-SA 4.0
Wikipedia: CC BY-SA 3.0

搜集汇总

数据集介绍

构建方式

lexica-corpus数据集的构建基于三个德语维基类词典：MiniKlexikon、Klexikon和Wikipedia。MiniKlexikon专为初学阅读的儿童设计，Klexikon则面向6至12岁的儿童，而Wikipedia则服务于更广泛的成年读者群体。通过提取这些词典中的文章，数据集形成了三个不同概念复杂度的子语料库。为了确保语料的简洁性，Wikipedia仅选取了文章的引言或摘要部分。数据集的构建过程包括从原始研究中提取的295篇文章，以及扩展版本中每个子语料库约1000篇文章的更新。

特点

lexica-corpus数据集的特点在于其多层次的概念复杂度，分别对应不同年龄段的读者群体。MiniKlexikon子语料库的平均文章长度为134.86词，句子长度为9.57词；Klexikon子语料库的平均文章长度为305.45词，句子长度为13.29词；而Wikipedia子语料库的平均文章长度为169.89词，句子长度为18.41词。此外，数据集还提供了段落结束符号的标注，MiniKlexikon和Klexikon使用`<eop>`，而Wikipedia则使用`*`。这种设计使得数据集在文本简化研究中具有较高的实用价值。

使用方法

lexica-corpus数据集的使用方法灵活多样。用户可以通过运行`build.sh`脚本更新语料库，或使用`build_conda.sh`脚本在Conda环境中进行操作。若需从头构建语料库，可执行`python parse_lexica.py --create_new_corpus`命令。此外，用户还可以通过`--more_info`选项单独检查Wikipedia的歧义信息，或通过`--klexi_file`、`--miniklexi_file`和`--wiki_file`选项更改子语料库的文件名。这些功能使得数据集能够适应不同的研究需求，并为文本简化领域的实验提供了便利。

背景与挑战

背景概述

lexica-corpus数据集由Freya Hewett和Christopher Richter等人于2021年创建，旨在为德语文本简化研究提供支持。该数据集基于三个维基百科类资源：MiniKlexikon、Klexikon和Wikipedia，分别针对不同年龄段的读者群体。MiniKlexikon面向初学阅读的儿童，Klexikon面向6至12岁的儿童，而Wikipedia则面向成人。通过提取这些资源的文本内容，数据集构建了三个不同概念复杂度的子语料库，为德语文本简化、可读性评估及自然语言处理研究提供了重要资源。该数据集的研究成果发表于2021年的KONVENS会议，推动了德语文本简化领域的发展。

当前挑战

lexica-corpus数据集在构建过程中面临多重挑战。首先，文本简化领域的核心问题在于如何准确评估和量化文本的复杂度，而不同目标读者群体的语言需求差异显著，这为数据集的标注和分类带来了复杂性。其次，由于MiniKlexikon和Klexikon的文本由志愿者编写，其质量和一致性难以完全保证，需通过人工和自动化方法进行筛选和修正。此外，Wikipedia文本的篇幅较长，仅提取摘要部分可能导致信息不完整，这对数据集的代表性提出了挑战。最后，数据集的动态更新依赖于源数据的持续扩展，如何高效整合新内容并保持语料库的一致性也是一个技术难点。

常用场景

经典使用场景

lexica-corpus数据集在自然语言处理领域中被广泛用于文本简化任务的研究。该数据集包含来自MiniKlexikon、Klexikon和Wikipedia的德语文本，分别针对不同年龄段的读者群体，提供了三个不同复杂度的文本层级。研究人员可以通过分析这些文本的语言特征，探索如何将复杂文本简化为适合儿童或初学者阅读的形式。这一数据集为文本简化算法的开发和评估提供了丰富的语料支持。

实际应用

在实际应用中，lexica-corpus数据集被用于开发教育技术工具，例如为儿童或语言学习者提供简化的阅读材料。通过利用该数据集中的简化文本，教育平台可以自动生成适合不同年龄段和学习水平的阅读内容，从而提升学习效果。此外，该数据集还可用于辅助写作工具的开发，帮助作者生成更易于理解的文本。

衍生相关工作

lexica-corpus数据集衍生了一系列经典研究工作，例如基于该数据集的文本复杂度评估模型和自动简化算法。相关研究不仅推动了德语文本简化领域的发展，还为其他语言的文本简化研究提供了参考。此外，该数据集还被用于跨语言文本简化任务的研究，促进了多语言自然语言处理技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集