fineweb-kimi-k2-instruct-no
收藏Hugging Face2025-07-20 更新2025-07-21 收录
下载链接:
https://huggingface.co/datasets/versae/fineweb-kimi-k2-instruct-no
下载链接
链接失效反馈官方服务:
资源简介:
Fineweb2 Kimi K2 指导挪威语数据集是从FineWeb2中选取的10万份文档,使用Kimi K2 Instruct模型进行注释的教育价值评估数据集。它包括id、source、text等字段,并分为训练集和测试集,用于评估网页的教育价值。
创建时间:
2025-07-19
原始信息汇总
Fineweb2 Kimi K2 Instruct Norwegian数据集概述
数据集基本信息
- 许可证: MIT
- 语言: 挪威语(no, nb)
- 下载大小: 374,355,691字节
- 数据集大小: 605,477,315字节
数据集结构
-
特征:
id: 字符串类型,唯一标识符source: 字符串类型,数据来源text: 字符串类型,文本内容extract: 字符串类型,提取内容educational_score: 整型,教育评分reason: 字符串类型,评分理由provenance: 字符串类型,来源证明url: 字符串类型,原始URLadded: 字符串类型,添加日期
-
数据划分:
- 训练集:
- 样本数量: 100,000
- 数据大小: 602,165,405.2710094字节
- 测试集:
- 样本数量: 550
- 数据大小: 3,311,909.728990552字节
- 训练集:
数据集内容
- 该数据集是FineWeb2的一个子集,包含100,000个挪威语文档,使用Kimi K2 Instruct模型进行标注。
- 标注任务包括评估网页的教育价值,评分标准为1-5分,基于文本的教育相关性和组织结构。
评分标准
- 1分: 提供基本教育相关信息,可能包含无关内容。
- 2分: 涉及教育相关内容,但不符合教育标准。
- 3分: 适合教育用途,介绍重要概念,但可能有局限性。
- 4分: 高度相关且有用,类似教科书章节。
- 5分: 卓越的教育价值,完美适合教学。
使用提示
- 文本需为挪威语,非挪威语文本评分为0。
- 反馈格式为JSON,包含
reason和educational_score字段。
搜集汇总
数据集介绍

构建方式
该数据集基于FineWeb2语料库构建,通过Kimi K2 Instruct模型对10万份挪威语文档进行教育价值标注。采用五级评分体系,从基础信息相关性到卓越教学价值逐级评估,每份文本均经过严格的语言筛选(限定挪威语)和教学场景适配性判断。标注过程采用结构化系统指令,要求模型根据预设的累进式评分标准生成包含理由和分数的JSON格式反馈。
特点
数据集涵盖从基础教育到高中阶段的教学内容评估,每个样本包含原文、提取片段、教育评分及详细理由。其核心价值在于精细的教学质量量化指标,通过0-5分的梯度评分反映文本的教育适用性深度。独特的语言限定机制确保语料纯净度,而provenance字段则提供完整的溯源信息,支持教育研究中的可信度验证。
使用方法
该数据集适用于教育技术领域的多类任务,包括教学资源质量评估、自动教材生成模型训练等。使用时需注意其评分体系特异的累进标准,建议结合educational_score与reason字段进行联合分析。测试集包含550个样本,可用于模型验证。预处理时应关注text与extract字段的互补关系,url字段支持原始内容的追溯核查。
背景与挑战
背景概述
FineWeb2 Kimi K2 Instruct Norwegian数据集是FineWeb2项目的一个子集,专注于挪威语教育资源的评估。该数据集由先进的语言模型Kimi K2 Instruct标注,旨在评估网页内容的教育价值。数据集创建于2025年,针对从小学到高中的教育场景,采用五点评分系统对文本的教育适用性进行量化评估。这一工作为教育资源的质量评估提供了标准化工具,对教育技术领域的发展具有重要推动作用。
当前挑战
该数据集面临的核心挑战在于教育价值评估的主观性和复杂性。五点评分系统虽然结构化,但不同评分者可能对相同文本产生分歧,尤其是在混合教育与非教育内容的边界案例上。数据构建过程中,确保标注一致性和处理挪威语的语言特异性(如区分bokmål和nynorsk)也是显著挑战。此外,模型需要准确识别文本中的教育相关性,同时过滤广告等噪音内容,这对算法设计提出了较高要求。
常用场景
经典使用场景
在自然语言处理领域,fineweb-kimi-k2-instruct-no数据集因其独特的挪威语教育内容标注而备受关注。该数据集广泛应用于教育文本质量评估模型的训练与验证,研究人员利用其精细的5级评分体系,开发能够自动识别和分类教育价值的算法。特别是在北欧语言教育资源匮乏的背景下,它为构建挪威语教育内容过滤系统提供了关键数据支撑。
实际应用
在实际应用中,该数据集支撑了北欧地区多个智能教育平台的建设。教育机构利用基于该数据集训练的模型,实现了对网络教育资源的自动化筛选和分级,显著提升了数字教材的编纂效率。图书馆系统也借助其评分机制,建立了面向K12教育的挪威语数字资源分类体系。
衍生相关工作
围绕该数据集已产生若干重要研究成果,包括基于多模态特征的教育文本评估框架EdScore-NO,以及结合课程标准的跨学科内容匹配算法。挪威科技大学团队进一步扩展了该数据集的应用范围,开发出支持双语教育的文本转换模型,这些工作显著推动了北欧教育智能化的发展进程。
以上内容由遇见数据集搜集并总结生成



