davanstrien/aud-smollm2-1.7b-20260428
收藏Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/davanstrien/aud-smollm2-1.7b-20260428
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是由classify-and-augment工具生成的LLM标注数据集,主要用于分类任务。数据集包含两个标签:positive和negative,其中negative标签有126条真实数据,positive标签有81条数据(54条真实数据和27条合成数据)。数据集使用HuggingFaceTB/SmolLM2-1.7B-Instruct模型进行标注,输入行数为180,输出行数为207。合成数据的接受率为71.9%,即合成候选数据被同一模型重新分类为目标类的比例。
---
tags:
- 分类与增强(classify-and-augment)
- 大语言模型标注(LLM-annotated)
---
# davanstrien/aud-smollm2-1.7b-20260428
本数据集为经大语言模型(LLM)标注的数据集,由[分类与增强(classify-and-augment)](https://github.com/davanstrien/classify-and-augment)工具生成。
## 数据集配置
- **模型**:`HuggingFaceTB/SmolLM2-1.7B-Instruct`
- **标签**:`positive`(正向)、`negative`(负向)
- **输入样本量**:180
- **输出样本量**:207
## 标签分布
| 标签 | 真实样本 | 合成样本 | 总计 |
|---|---:|---:|---:|
| `negative`(负向) | 126 | 0 | 126 |
| `positive`(正向) | 54 | 27 | 81 |
## 合成样本审核
| 类别 | 需生成数 | 已生成数 | 已验证数 | 留存数 | 通过率 |
|---|---:|---:|---:|---:|---:|
| `positive`(正向) | 46 | 64 | 46 | 27 | 71.9% |
通过率 = 经同一模型重新分类为目标类别的合成候选样本(自一致性检验,参考[Synthetic Imputation(合成插补),arxiv 2504.15160](https://arxiv.org/abs/2504.15160))。
提供机构:
davanstrien



