five

ja-fineweb-2-hvac-fastText-scored-v3

收藏
Hugging Face2025-12-22 更新2025-12-23 收录
下载链接:
https://huggingface.co/datasets/daikin-industries-ltd/ja-fineweb-2-hvac-fastText-scored-v3
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集是基于日语空调(HVAC)相关文本数据,通过FastText分类和LLM质量评分处理的。数据集包含文本内容、来源URL、Common Crawl转储名称、爬取日期、语言代码、语言判定分数、FastText分类分数(0.0-1.0)、LLM质量分数(1-5)以及LLM评分的依据。数据集主要用于空调技术教育领域,评分标准从1到5分,分别代表与空调技术无关到高度专业的相关内容。数据集包含200,000条记录,文件数为1,671个,平均LLM评分为2.32。
创建时间:
2025-12-20
原始信息汇总

ja-fineweb-2-hvac-fastText-scored-v3 数据集概述

基本信息

  • 数据集名称: ja-fineweb-2-hvac-fastText-scored-v3
  • 发布者: Daikin Industries, Ltd.
  • 发布日期: 2025年
  • 许可证: MIT License
  • 语言: 日语
  • 任务类别: 文本生成
  • 标签: hvac, air-conditioning, fasttext, quality-scoring, japanese, web-corpus
  • 数据规模: 100K<n<1M

数据集简介

本数据集是基于 daikin-industries-ltd/ja-fineweb-2-hvac-fastText-filtered-v3 构建的,在原有基础上增加了由大语言模型(LLM)生成的文本质量评分。

数据内容与结构

数据集包含日语空调(HVAC)相关文本,并对每条数据提供了FastText分类评分和LLM质量评分。数据仅包含FastText评分较高的文档,并经过了LLM的详细质量评估。

数据字段

字段名 数据类型 说明
text string 文本正文
url string 来源URL
dump string Common Crawl转储名称
date string 爬取日期时间
language string 语言代码
language_score float 语言判定分数
fasttext_score float FastText分类分数(0.0~1.0)
llm_score int LLM质量评分(1~5)
llm_rationale string LLM评分的理由说明

数据集统计信息

LLM评分分布

评分 记录数 占比
1点 52,306 26.2%
2点 67,664 33.8%
3点 53,751 26.9%
4点 16,706 8.4%
5点 9,573 4.8%

基本统计量

统计量
平均值 2.32
中位数 2
最小值 1
最大值 5

评分方法说明

FastText评分

  • 使用二分类模型判断内容是否与空调相关。
  • __label__positive:判定为空调相关内容。
  • __label__negative:判定为非相关内容。
  • 分数代表分类的确信度,分数越高确信度越高。

LLM评分

使用模型

评分标准(5分制)

从“是否对空调技术人员的教育现场有用”的角度进行评估:

评分 说明
1点 内容与空调/空调技术无关,对工程师没有教育意义。
2点 包含极少部分空调相关内容,但上下文是日常或商业话题,几乎没有技术内容。
3点 提及空调设备(如空调、热泵、通风装置等),并包含部分关于操作或性能的说明,但内容非专业或零散。
4点 涉及空调技术的基本概念(如制冷剂、热交换、压缩、负荷计算等),并有一定技术说明意图,但内容较为概括或初级。
5点 从专业角度阐述空调工程/系统的构成、控制、性能、理论或设计方法等,内容具有技术文档或技术解释的连贯性,且内容始终与空调技术相关。

处理方法

  • 仅对FastText评分较高的文档进行LLM详细质量评估。
  • 本数据集仅收录已获得LLM评分的文档。

使用方法

加载数据

python from datasets import load_dataset

加载整个数据集

dataset = load_dataset("daikin-industries-ltd/ja-fineweb-2-hvac-fastText-scored-v3")

流式加载(适用于大规模数据)

dataset = load_dataset( "daikin-industries-ltd/ja-fineweb-2-hvac-fastText-scored-v3", streaming=True )

按评分筛选示例

python

仅提取高质量数据(LLM评分4分及以上)

high_quality = dataset.filter(lambda x: x["llm_score"] >= 4)

仅提取FastText评分高的数据

high_confidence = dataset.filter(lambda x: x["fasttext_score"] > 0.9)

相关数据集

引用格式

bibtex @dataset{ja_fineweb_hvac_scored_2025, title={ja-fineweb-2-hvac-fastText-scored-v3}, author={Daikin Industries, Ltd.}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/daikin-industries-ltd/ja-fineweb-2-hvac-fastText-scored-v3} }

搜集汇总
数据集介绍
main_image_url
构建方式
在暖通空调领域,高质量文本数据的获取对于技术研究与模型训练至关重要。该数据集以经过FastText筛选的日语网络语料库为基础,通过双重评分机制构建而成。首先,利用FastText二分类模型对文本进行空调整定,并依据置信度生成分类分数。随后,针对高分文档引入大语言模型进行深度质量评估,依据空调整育价值标准赋予1至5分的品质评分,并附有详细的评分依据说明。最终,数据集整合了二十万条兼具分类与质量评分的文本记录,形成结构化的专业语料资源。
特点
本数据集的核心特征在于其精细化的双层评分体系与明确的教育应用导向。数据集不仅通过FastText模型提供了文本与空调整域相关性的概率分数,更创新性地融入了基于大语言模型的五级质量评分,每一评分均配有解释性依据,极大增强了数据的透明度和可解释性。数据分布呈现多样性,涵盖了从日常商业描述到专业工程技术文档的广泛内容,其中高教育价值的高分样本虽占比较小,但为模型训练提供了珍贵的优质范例。这种结构设计使得研究者能够依据不同分数阈值,灵活抽取特定质量层级的语料,以满足差异化的研究需求。
使用方法
为便于学术研究与应用开发,该数据集可通过Hugging Face的`datasets`库便捷加载。用户可选择完整加载或流式读取模式以应对大规模数据处理。数据集的核心应用在于利用其丰富的元数据字段进行高效筛选与分层抽样,例如,通过设定`llm_score`阈值可快速提取高教育价值的优质文本,或结合`fasttext_score`筛选高置信度的空调整域内容。这种灵活的数据访问与过滤机制,为构建面向暖通空调领域的语言模型、进行文本质量评估研究或开发专业教育工具提供了坚实的数据基础。
背景与挑战
背景概述
在自然语言处理领域,高质量领域特定语料库的构建对于推动专业领域大语言模型的发展至关重要。由大金工业株式会社于2025年发布的ja-fineweb-2-hvac-fastText-scored-v3数据集,正是针对暖通空调这一专业工程领域而精心构建的日语文本资源。该数据集以ja-fineweb-2-hvac-fastText-filtered-v3为基础,核心研究问题聚焦于如何从海量网络文本中精准筛选并评估HVAC相关的高质量技术文档,旨在为空调技术教育及领域模型训练提供结构化的优质语料。其创新性地融合了FastText分类与大型语言模型质量评分双重机制,为专业领域数据清洗与评估树立了新的范式,对提升日语工程文本处理模型的准确性与专业性具有显著影响力。
当前挑战
该数据集致力于解决暖通空调领域高质量日语技术文本稀缺的核心问题,其首要挑战在于如何从异构且噪声充斥的网络语料中,精确识别出真正具备技术深度和教育价值的专业内容。构建过程面临多重技术挑战:其一,利用FastText模型进行初步领域分类时,需克服专业术语与日常用语混杂带来的语义模糊性,确保分类的准确性;其二,依赖大型语言模型进行细粒度质量评分时,如何设计稳定、可解释且与教育实用性紧密对齐的评估标准是一大难题,同时还需应对大规模文本评分所带来的高昂计算成本与一致性维持问题。这些挑战共同指向了专业领域语料库构建中质量与效率平衡的永恒命题。
常用场景
经典使用场景
在暖通空调(HVAC)领域,高质量专业文本的稀缺性长期制约着相关语言模型的训练与发展。该数据集通过融合FastText分类与大型语言模型评分机制,为领域特定文本的筛选与质量评估提供了经典范例。其核心应用场景在于构建面向日语HVAC技术的专业语料库,支持研究人员高效提取高置信度的技术文档,进而用于训练或微调专注于空调工程的专业化自然语言处理模型。
实际应用
在实际工业与教育场景中,该数据集直接服务于空调技术人员的专业知识获取与技能培训。企业可利用其筛选出的高评分技术文档,构建内部知识库或开发智能问答系统,以辅助工程师进行故障诊断与方案设计。教育机构则可将其作为素材,生成结构化的培训内容或模拟技术文档,提升专业人才培养的效率和精准度。
衍生相关工作
该数据集的构建方法衍生了一系列围绕专业领域文本质量评估与过滤的经典工作。其双层评分策略启发了结合传统分类模型与生成式大模型进行数据清洗的研究方向。相关工作进一步探索了不同评分阈值的有效性、多模态领域数据的扩展,以及基于此类高质量语料训练的领域大模型(如HVAC-specific LLM)在技术文档生成、知识检索等下游任务中的性能表现。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作