fineweb-kimi-k2-instruct-no

Hugging Face2025-07-20 更新2025-07-21 收录

下载链接：

https://huggingface.co/datasets/versae/fineweb-kimi-k2-instruct-no

下载链接

链接失效反馈

官方服务：

资源简介：

Fineweb2 Kimi K2 指导挪威语数据集是从FineWeb2中选取的10万份文档，使用Kimi K2 Instruct模型进行注释的教育价值评估数据集。它包括id、source、text等字段，并分为训练集和测试集，用于评估网页的教育价值。

创建时间：

2025-07-19

原始信息汇总

Fineweb2 Kimi K2 Instruct Norwegian数据集概述

数据集基本信息

许可证: MIT
语言: 挪威语（no, nb）
下载大小: 374,355,691字节
数据集大小: 605,477,315字节

数据集结构

特征:
- id: 字符串类型，唯一标识符
- source: 字符串类型，数据来源
- text: 字符串类型，文本内容
- extract: 字符串类型，提取内容
- educational_score: 整型，教育评分
- reason: 字符串类型，评分理由
- provenance: 字符串类型，来源证明
- url: 字符串类型，原始URL
- added: 字符串类型，添加日期
数据划分:
- 训练集:
  - 样本数量: 100,000
  - 数据大小: 602,165,405.2710094字节
- 测试集:
  - 样本数量: 550
  - 数据大小: 3,311,909.728990552字节

数据集内容

该数据集是FineWeb2的一个子集，包含100,000个挪威语文档，使用Kimi K2 Instruct模型进行标注。
标注任务包括评估网页的教育价值，评分标准为1-5分，基于文本的教育相关性和组织结构。

评分标准

1分: 提供基本教育相关信息，可能包含无关内容。
2分: 涉及教育相关内容，但不符合教育标准。
3分: 适合教育用途，介绍重要概念，但可能有局限性。
4分: 高度相关且有用，类似教科书章节。
5分: 卓越的教育价值，完美适合教学。

使用提示

文本需为挪威语，非挪威语文本评分为0。
反馈格式为JSON，包含reason和educational_score字段。

搜集汇总

数据集介绍

构建方式

该数据集基于FineWeb2语料库构建，通过Kimi K2 Instruct模型对10万份挪威语文档进行教育价值标注。采用五级评分体系，从基础信息相关性到卓越教学价值逐级评估，每份文本均经过严格的语言筛选（限定挪威语）和教学场景适配性判断。标注过程采用结构化系统指令，要求模型根据预设的累进式评分标准生成包含理由和分数的JSON格式反馈。

特点

数据集涵盖从基础教育到高中阶段的教学内容评估，每个样本包含原文、提取片段、教育评分及详细理由。其核心价值在于精细的教学质量量化指标，通过0-5分的梯度评分反映文本的教育适用性深度。独特的语言限定机制确保语料纯净度，而provenance字段则提供完整的溯源信息，支持教育研究中的可信度验证。

使用方法

该数据集适用于教育技术领域的多类任务，包括教学资源质量评估、自动教材生成模型训练等。使用时需注意其评分体系特异的累进标准，建议结合educational_score与reason字段进行联合分析。测试集包含550个样本，可用于模型验证。预处理时应关注text与extract字段的互补关系，url字段支持原始内容的追溯核查。

背景与挑战

背景概述

FineWeb2 Kimi K2 Instruct Norwegian数据集是FineWeb2项目的一个子集，专注于挪威语教育资源的评估。该数据集由先进的语言模型Kimi K2 Instruct标注，旨在评估网页内容的教育价值。数据集创建于2025年，针对从小学到高中的教育场景，采用五点评分系统对文本的教育适用性进行量化评估。这一工作为教育资源的质量评估提供了标准化工具，对教育技术领域的发展具有重要推动作用。

当前挑战

该数据集面临的核心挑战在于教育价值评估的主观性和复杂性。五点评分系统虽然结构化，但不同评分者可能对相同文本产生分歧，尤其是在混合教育与非教育内容的边界案例上。数据构建过程中，确保标注一致性和处理挪威语的语言特异性（如区分bokmål和nynorsk）也是显著挑战。此外，模型需要准确识别文本中的教育相关性，同时过滤广告等噪音内容，这对算法设计提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，fineweb-kimi-k2-instruct-no数据集因其独特的挪威语教育内容标注而备受关注。该数据集广泛应用于教育文本质量评估模型的训练与验证，研究人员利用其精细的5级评分体系，开发能够自动识别和分类教育价值的算法。特别是在北欧语言教育资源匮乏的背景下，它为构建挪威语教育内容过滤系统提供了关键数据支撑。

实际应用

在实际应用中，该数据集支撑了北欧地区多个智能教育平台的建设。教育机构利用基于该数据集训练的模型，实现了对网络教育资源的自动化筛选和分级，显著提升了数字教材的编纂效率。图书馆系统也借助其评分机制，建立了面向K12教育的挪威语数字资源分类体系。

衍生相关工作

围绕该数据集已产生若干重要研究成果，包括基于多模态特征的教育文本评估框架EdScore-NO，以及结合课程标准的跨学科内容匹配算法。挪威科技大学团队进一步扩展了该数据集的应用范围，开发出支持双语教育的文本转换模型，这些工作显著推动了北欧教育智能化的发展进程。

以上内容由遇见数据集搜集并总结生成