swedish-cefr-text-complexity

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://huggingface.co/datasets/kvest/swedish-cefr-text-complexity

下载链接

链接失效反馈

官方服务：

资源简介：

瑞典语CEFR文本复杂度数据集包含瑞典语文本示例，标注了从A1到C2的近似CEFR阅读水平。该数据集最初是为一个关于使用嵌入训练文本分类器的信息检索任务而创建的。数据集适用于瑞典语文本复杂度分类任务，即给定一个简短的瑞典语句子或段落，预测其最接近的阅读水平。数据集包含两个主要文件：一个包含600个示例的训练集和一个包含120个示例的独立测试集。每个示例包含两列：text（瑞典语文本）和label（CEFR阅读水平，包括A1、A2、B1、B2、C1、C2）。训练集中每个标签有100个示例，测试集中每个标签有20个示例。标签的近似解释从A1（非常简单的日常瑞典语）到C2（高度复杂、正式、技术性或专业瑞典语）不等。数据集适用于小规模的嵌入实验、可读性分类和CEFR风格的语言水平预测。

The Swedish CEFR Text Complexity Dataset contains Swedish text examples annotated with approximate CEFR reading proficiency levels ranging from A1 to C2. This dataset was originally created for an information retrieval task involving embedding-trained text classifiers. It is applicable to Swedish text complexity classification tasks, which require predicting the closest matching reading proficiency level given a short Swedish sentence or paragraph. The dataset comprises two primary files: a training set with 600 examples and an independent test set with 120 examples. Each example includes two columns: `text` (Swedish language text) and `label` (CEFR reading proficiency levels, including A1, A2, B1, B2, C1, and C2). Each label corresponds to 100 examples in the training set and 20 examples in the test set. The approximate interpretations of the labels range from A1 (very simple, everyday Swedish) to C2 (highly complex, formal, technical, or professional Swedish). This dataset is suitable for small-scale embedding experiments, readability classification, and CEFR-style language proficiency prediction.

创建时间：

2026-05-07

原始信息汇总

数据集概述：Swedish CEFR Text Complexity

该数据集包含标注了CEFR阅读水平（从A1到C2）的瑞典语文本示例，适用于文本分类任务，特别是瑞典语文本复杂性分类。

数据集信息

许可证：CC-BY-4.0
语言：瑞典语（sv）
任务类别：文本分类
标签：CEFR阅读水平（A1、A2、B1、B2、C1、C2）
- A1：非常简单的日常瑞典语
- A2：简单的熟悉瑞典语，短语稍长
- B1：清晰的通用瑞典语
- B2：更详细或抽象的瑞典语
- C1：高级瑞典语，结构复杂或措辞专业
- C2：高度复杂、正式、技术性或专业性的瑞典语

文件结构

数据集包含三个TSV文件，每行有两列：text（瑞典语文本）和label（CEFR水平）。

文件	描述
`swedish_cefr_dataset.tsv`	原始600条示例数据集
`swedish_cefr_train.tsv`	600条训练集
`swedish_cefr_test.tsv`	120条独立测试集

数据划分

训练集：600条示例，每个CEFR标签100条
测试集：120条示例，每个CEFR标签20条

分类器基准测试

基于nicher92/saga-embed_v1嵌入和scikit-learn分类器，在测试集上的性能如下：

分类器	准确率	宏平均F1
线性SVM	0.867	0.866
逻辑回归	0.850	0.848
随机森林	0.808	0.805
KNN	0.708	0.704

线性SVM因准确率和宏平均F1最高被选为最终分类器。

加载示例

python import pandas as pd

train = pd.read_csv( "hf://datasets/kvest/swedish-cefr-text-complexity/swedish_cefr_train.tsv", sep=" ", ) test = pd.read_csv( "hf://datasets/kvest/swedish-cefr-text-complexity/swedish_cefr_test.tsv", sep=" ", )

print(train.head()) print(test["label"].value_counts().sort_index())

局限性

标签为近似值，适用于教育性分类器训练，非官方CEFR评估。
短文本可能存在歧义，CEFR阅读水平受词汇、语法、话题熟悉度和语篇结构影响。

搜集汇总

数据集介绍

构建方式

该数据集以瑞典语文本为对象，围绕欧洲共同语言参考标准（CEFR）的阅读等级进行标注，涵盖从A1至C2的六个层级。原始数据包含600条样本，经过划分形成训练集与测试集，其中训练集各等级均衡分布100条文本，测试集则各含20条。数据集以TSV格式存储，每一条目包含原始瑞典语文本及其对应的CEFR标签。构建过程服务于嵌入向量的文本分类实验，为后续基于scikit-learn的模型训练提供标准化输入。

特点

数据集在标签分布上具有均衡性，训练集与测试集均按等级均匀抽样，确保了多分类任务中各类别贡献一致。标签体系明确且具有渐进性，从极简日常用语（A1）到高度复杂、正式或专业化的瑞典语（C2），为文本复杂度分级提供了清晰阶梯。此外，数据集附带了基于saga-embed_v1嵌入与多种分类器的基准评测结果，其中线性支持向量机在准确率和宏F1分数上表现最佳，为研究者提供了可复现的性能参考。

使用方法

使用者可通过Pandas库直接读取TSV文件以加载数据，具体利用远程URL指向Hugging Face数据集仓库中的训练与测试文件。该数据集适用于短篇瑞典语句子或段落的阅读等级预测任务，常与saga-embed_v1嵌入模型结合，配合Logistic回归、线性SVM等经典分类器进行文本复杂度分类实验。推荐在读取后对数据执行可重复的随机打乱操作，以提升训练稳定性，并采用宏F1作为等级不平衡场景下的评估指标。

背景与挑战

背景概述

该数据集由研究者 kvest 创建，发布于 Hugging Face 平台，专注于瑞典语文本的 CEFR 阅读难度分级任务。CEFR（欧洲语言共同参考框架）是国际通用的语言能力标准，从 A1（入门）到 C2（精通）共六个等级，广泛应用于语言教学与评估领域。然而，针对瑞典语的细粒度文本复杂度数据集相对稀缺，制约了相关自然语言处理模型的发展。该数据集包含 720 条瑞典语句子或段落，每条标注有 A1 至 C2 的近似等级，训练集 600 条（每等级 100 条），测试集 120 条（每等级 20 条），为瑞典语可读性分类与嵌入学习提供了基准资源，在小规模实验和分类器比较中展现出实用价值。

当前挑战

该数据集面临的核心挑战包括领域问题与构建过程两个层面。在领域问题层面，文本复杂度分级本身具有主观性和模糊性——短文本的语言特征可能跨等级重叠，CEFR 等级判定需综合词汇、语法、主题熟悉度和语篇结构等多维因素，单一标签难以完全刻画文本的真实难度。在构建过程层面，数据集仅有 720 条样本，且每个等级示例数量有限（训练集 100 条、测试集 20 条），导致数据稀疏性突出；标签为近似标注而非官方认证，可能引入标注偏差；同时，短文本的歧义性进一步增加了分类模型的泛化难度，如 Linear SVM 在测试集上准确率 0.867，但面对真实场景中的多样性文本仍显不足。

常用场景

经典使用场景

在瑞典语自然语言处理领域，该数据集的核心应用是对文本复杂度进行分类。研究者通常选取单句或简短段落作为输入，借助嵌入表示与经典机器学习分类器，将文本精准映射至CEFR框架下的六大阅读级别（A1至C2）。这一过程不仅能够有效评估瑞典语学习者的语言熟练度，还为构建面向北欧语言的文本难度自动分级系统提供了可复用的实验基准。

实际应用

在实践层面，该数据集可服务于多个真实场景，例如瑞典语作为第二语言的教学平台，借助模型自动为学习者推荐适配其阅读水平的文章或练习题；数字图书馆可据此实现馆藏文本的难度标引与个性化推送；语言能力测评机构亦能基于该模型进行大规模初筛，辅助人工评估流程，显著降低人力与时间成本。

衍生相关工作

围绕该数据集衍生出的代表性工作包括：基于saga-embed_v1嵌入并结合线性SVM实现的最佳分类器（测试集准确率达86.7%），以及部署于HuggingFace Spaces上的在线演示系统。此外，研究团队在GitHub上开源了完整的分类器训练与评估代码，为后续对比不同嵌入模型、优化分类策略或扩展至其他北欧语言的实验提供了可靠起点。

以上内容由遇见数据集搜集并总结生成