ja-fineweb-2-hvac-fastText-scored-v3
收藏ja-fineweb-2-hvac-fastText-scored-v3 数据集概述
基本信息
- 数据集名称: ja-fineweb-2-hvac-fastText-scored-v3
- 发布者: Daikin Industries, Ltd.
- 发布日期: 2025年
- 许可证: MIT License
- 语言: 日语
- 任务类别: 文本生成
- 标签: hvac, air-conditioning, fasttext, quality-scoring, japanese, web-corpus
- 数据规模: 100K<n<1M
数据集简介
本数据集是基于 daikin-industries-ltd/ja-fineweb-2-hvac-fastText-filtered-v3 构建的,在原有基础上增加了由大语言模型(LLM)生成的文本质量评分。
数据内容与结构
数据集包含日语空调(HVAC)相关文本,并对每条数据提供了FastText分类评分和LLM质量评分。数据仅包含FastText评分较高的文档,并经过了LLM的详细质量评估。
数据字段
| 字段名 | 数据类型 | 说明 |
|---|---|---|
text |
string | 文本正文 |
url |
string | 来源URL |
dump |
string | Common Crawl转储名称 |
date |
string | 爬取日期时间 |
language |
string | 语言代码 |
language_score |
float | 语言判定分数 |
fasttext_score |
float | FastText分类分数(0.0~1.0) |
llm_score |
int | LLM质量评分(1~5) |
llm_rationale |
string | LLM评分的理由说明 |
数据集统计信息
- 基础数据集: ja-fineweb-2-hvac-fastText-filtered-v3
- 处理日期: 2025年12月22日
- 文件数量: 1,671个文件
- 总记录数: 200,000条
LLM评分分布
| 评分 | 记录数 | 占比 |
|---|---|---|
| 1点 | 52,306 | 26.2% |
| 2点 | 67,664 | 33.8% |
| 3点 | 53,751 | 26.9% |
| 4点 | 16,706 | 8.4% |
| 5点 | 9,573 | 4.8% |
基本统计量
| 统计量 | 值 |
|---|---|
| 平均值 | 2.32 |
| 中位数 | 2 |
| 最小值 | 1 |
| 最大值 | 5 |
评分方法说明
FastText评分
- 使用二分类模型判断内容是否与空调相关。
__label__positive:判定为空调相关内容。__label__negative:判定为非相关内容。- 分数代表分类的确信度,分数越高确信度越高。
LLM评分
使用模型
- 模型: Qwen/Qwen3-235B-A22B-Instruct-2507
- 推理环境: vLLM (tensor-parallel-size=8, max-model-len=8192)
评分标准(5分制)
从“是否对空调技术人员的教育现场有用”的角度进行评估:
| 评分 | 说明 |
|---|---|
| 1点 | 内容与空调/空调技术无关,对工程师没有教育意义。 |
| 2点 | 包含极少部分空调相关内容,但上下文是日常或商业话题,几乎没有技术内容。 |
| 3点 | 提及空调设备(如空调、热泵、通风装置等),并包含部分关于操作或性能的说明,但内容非专业或零散。 |
| 4点 | 涉及空调技术的基本概念(如制冷剂、热交换、压缩、负荷计算等),并有一定技术说明意图,但内容较为概括或初级。 |
| 5点 | 从专业角度阐述空调工程/系统的构成、控制、性能、理论或设计方法等,内容具有技术文档或技术解释的连贯性,且内容始终与空调技术相关。 |
处理方法
- 仅对FastText评分较高的文档进行LLM详细质量评估。
- 本数据集仅收录已获得LLM评分的文档。
使用方法
加载数据
python from datasets import load_dataset
加载整个数据集
dataset = load_dataset("daikin-industries-ltd/ja-fineweb-2-hvac-fastText-scored-v3")
流式加载(适用于大规模数据)
dataset = load_dataset( "daikin-industries-ltd/ja-fineweb-2-hvac-fastText-scored-v3", streaming=True )
按评分筛选示例
python
仅提取高质量数据(LLM评分4分及以上)
high_quality = dataset.filter(lambda x: x["llm_score"] >= 4)
仅提取FastText评分高的数据
high_confidence = dataset.filter(lambda x: x["fasttext_score"] > 0.9)
相关数据集
引用格式
bibtex @dataset{ja_fineweb_hvac_scored_2025, title={ja-fineweb-2-hvac-fastText-scored-v3}, author={Daikin Industries, Ltd.}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/daikin-industries-ltd/ja-fineweb-2-hvac-fastText-scored-v3} }




