ja-fineweb-2-hvac-fastText-scored-v1
收藏Hugging Face2025-12-22 更新2025-12-23 收录
下载链接:
https://huggingface.co/datasets/daikin-industries-ltd/ja-fineweb-2-hvac-fastText-scored-v1
下载链接
链接失效反馈官方服务:
资源简介:
本数据集是一个日文空调节能(HVAC)相关文本数据集,基于FastText分类和LLM质量评分。数据集包含从Common Crawl中提取的文本,并添加了语言检测分数、FastText分类分数(判断文本是否与空调节能相关)以及LLM质量评分(1到5分,评估文本的教育价值)。数据集主要用于空调节能技术人员的教育用途,包含400,000条记录,每条记录包含文本内容、来源URL、爬取日期、语言代码、语言检测分数、FastText分类分数、LLM质量评分及其评分依据。
创建时间:
2025-12-18
原始信息汇总
数据集概述
基本信息
- 数据集名称: ja-fineweb-2-hvac-fastText-scored-v1
- 发布者: Daikin Industries, Ltd.
- 发布日期: 2025年12月23日
- 许可证: MIT License
- 语言: 日语 (ja)
- 任务类别: 文本生成
- 标签: hvac, air-conditioning, fasttext, quality-scoring, japanese, web-corpus
- 数据规模: 100K < n < 1M
数据集描述
本数据集基于 daikin-industries-ltd/ja-fineweb-2-hvac-fastText-filtered-v1,为暖通空调(HVAC)相关文本数据添加了LLM质量评分。它首先通过FastText分类分数筛选出高分文档,然后对这些文档进行LLM驱动的详细质量评估。
数据格式
数据包含以下字段:
| 字段 | 类型 | 描述 |
|---|---|---|
text |
string | 文本正文 |
url |
string | 源URL |
dump |
string | Common Crawl转储名称 |
date |
string | 爬取日期时间 |
language |
string | 语言代码 |
language_score |
float | 语言判定分数 |
fasttext_score |
float | FastText分类分数(0.0〜1.0) |
llm_score |
int | LLM质量分数(1〜5) |
llm_rationale |
string | LLM评分的理由 |
数据集统计
- 基础数据集: ja-fineweb-2-hvac-fastText-filtered-v1
- 文件数量: 1,671个文件
- 记录总数: 400,000条
LLM分数分布
| 分数 | 数量 | 比例 |
|---|---|---|
| 1点 | 185,934 | 46.5% |
| 2点 | 135,932 | 34.0% |
| 3点 | 55,164 | 13.8% |
| 4点 | 14,224 | 3.6% |
| 5点 | 8,746 | 2.2% |
基本统计量
| 统计量 | 值 |
|---|---|
| 平均值 | 1.81 |
| 中位数 | 2 |
| 最小值 | 1 |
| 最大值 | 5 |
评分方法
FastText分数
- 用于判断内容是否与暖通空调相关的二分类模型。
__label__positive: 判定为暖通空调相关内容。__label__negative: 判定为非相关内容。- 分数代表分类置信度(越高表示置信度越高)。
LLM分数
- 使用模型: Qwen/Qwen3-235B-A22B-Instruct-2507
- 推理环境: vLLM (tensor-parallel-size=8, max-model-len=8192)
- 评估视角: 从是否有助于暖通空调技术人员的教育培训角度进行5分制评估。
- 处理方式: 仅对FastText分数较高的文档进行LLM质量评估,本数据集仅收录已获得LLM评分的文档。
使用方法
可通过 datasets 库加载数据集,并支持按 llm_score 或 fasttext_score 进行过滤。
相关数据集
引用格式
bibtex @dataset{ja_fineweb_hvac_scored_2025, title={ja-fineweb-2-hvac-fastText-scored-v1}, author={Daikin Industries, Ltd.}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/daikin-industries-ltd/ja-fineweb-2-hvac-fastText-scored-v1} }
搜集汇总
数据集介绍

构建方式
在暖通空调领域,高质量专业文本的筛选对于技术知识库构建至关重要。该数据集以ja-fineweb-2-hvac-fastText-filtered-v1为基础,首先运用FastText二值分类模型对日语网络语料进行初步筛选,识别出与暖通空调相关的内容,并赋予分类置信度分数。随后,针对FastText评分较高的文档,进一步采用Qwen3-235B-A22B-Instruct大语言模型进行精细化的质量评估。大模型依据预设的五级评分标准,从技术教育价值的角度对每篇文本进行评判,并生成相应的分数及评分理由,最终构建成一个融合了双重自动化评分的精选语料集合。
使用方法
为便于研究人员高效利用,该数据集可通过Hugging Face的datasets库直接加载。用户可选择完整加载或流式加载模式以应对大规模数据。数据集的核心应用价值在于其丰富的评分维度,使用者可依据研究或训练需求,灵活进行数据筛选。例如,通过设定LLM分数阈值,可以快速提取出技术内容扎实的高质量文本子集;或通过调整FastText分数,获取主题相关性最强的语料。这种基于评分的动态过滤能力,使得该数据集能够灵活适配于不同质量要求的模型训练或领域分析任务。
背景与挑战
背景概述
在自然语言处理领域,高质量领域特定语料库的构建是推动专业大语言模型发展的关键基石。由日本大金工业株式会社于2025年创建并发布的ja-fineweb-2-hvac-fastText-scored-v1数据集,正是这一背景下的产物。该数据集旨在解决暖通空调领域日语文本数据的稀缺性与质量评估难题,其核心研究问题聚焦于如何从海量网络文本中精准筛选并量化评估与HVAC技术相关的教育性内容。通过整合FastText分类与大型语言模型评分双重机制,该数据集为领域适应性预训练与微调提供了经过精细标注的语料资源,对提升专业领域语言模型的准确性与实用性具有显著影响力。
当前挑战
该数据集致力于应对暖通空调领域文本挖掘与质量评估的核心挑战。首要挑战在于领域文本的精准识别与筛选,网络语料中HVAC相关内容往往与非专业文本混杂,且表述方式多样,传统关键词匹配方法难以确保召回率与精确度的平衡。其次,构建过程中的核心挑战体现在内容质量的多维度量化评估上,如何定义并自动化评估文本对技术人员的“教育价值”是一个主观且复杂的任务。尽管采用了先进的LLM进行评分,但评分标准的制定、模型评估的稳定性与一致性,以及处理大规模数据时对计算资源的极高需求,均是构建过程中需要克服的实际困难。
常用场景
经典使用场景
在暖通空调(HVAC)领域,高质量专业语料的稀缺性一直是制约相关自然语言处理模型发展的瓶颈。该数据集通过融合FastText分类与大型语言模型评分机制,为研究人员提供了一个经过精细筛选的日语HVAC文本语料库。其经典应用场景在于支撑领域专用语言模型的预训练与微调,特别是针对技术文档生成、知识问答系统以及专业术语理解等任务,能够有效提升模型在HVAC垂直领域的语义捕捉与内容生成能力。
解决学术问题
该数据集主要致力于解决专业领域语料质量评估与高效构建的学术难题。传统网络爬取语料常包含大量噪声与无关内容,而人工标注成本高昂。本数据集通过自动化流水线,结合FastText的领域相关性初筛与LLM的深度质量评估,实现了大规模语料的精细化分级。这为研究领域自适应预训练、数据清洗算法以及少样本学习提供了高质量的基准数据,推动了专业领域自然语言处理技术从通用向专精的演进。
实际应用
在实际工业界,该数据集为HVAC行业的智能化应用奠定了数据基石。基于其构建的模型可应用于智能客服系统,精准理解并解答用户关于空调设备安装、故障诊断与能效优化的复杂咨询。此外,它也能赋能技术文档的自动摘要与多语言翻译,辅助工程师快速获取关键信息。在教育培训领域,该数据集可用于开发交互式学习工具,为技术人员提供结构化的专业知识学习材料,从而提升行业整体技术服务水平。
数据集最近研究
最新研究方向
在暖通空调领域,高质量日语文本数据的稀缺性长期制约着专业语言模型的训练。ja-fineweb-2-hvac-fastText-scored-v1数据集通过融合FastText分类与大型语言模型质量评分,为领域专用语料库的构建提供了创新范式。其前沿探索聚焦于利用多阶段智能过滤机制,从海量网络文本中精准识别并评估技术文档的教育价值,直接响应了行业对专业化、高可信度训练数据的迫切需求。这一方法不仅提升了领域内预训练数据的纯净度与效用,也为后续开发具备深度行业知识的生成式人工智能模型奠定了关键的数据基石,推动了垂直领域自然语言处理技术向更精细化、实用化方向发展。
以上内容由遇见数据集搜集并总结生成



