davanstrien/aud-qwen2.5-3b-20260428
收藏Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/davanstrien/aud-qwen2.5-3b-20260428
下载链接
链接失效反馈官方服务:
资源简介:
这是一个由classify-and-augment工具生成的LLM标注数据集,使用Qwen/Qwen2.5-3B-Instruct模型进行标注。数据集包含positive和negative两种情感标签,原始输入180行,经过处理后输出229行。标签分布显示negative标签有152条(均为真实数据),positive标签有77条(其中28条真实数据,49条合成数据)。合成审计数据显示positive类别的合成数据接受率为90%。
---
标签:
- 分类与增强(classify-and-augment)
- 大语言模型标注(LLM-annotated)
---
# davanstrien/aud-qwen2.5-3b-20260428
本数据集为经大语言模型(LLM)标注的数据集,由[classify-and-augment](https://github.com/davanstrien/classify-and-augment)工具生成。
## 配置参数
- **模型**:`Qwen/Qwen2.5-3B-Instruct`
- **标签**:`积极(positive)`、`消极(negative)`
- **输入样本数**:180
- **输出样本数**:229
## 标签分布
| 标签 | 真实样本数 | 合成样本数 | 总计 |
|---|---:|---:|---:|
| `消极(negative)` | 152 | 0 | 152 |
| `积极(positive)` | 28 | 49 | 77 |
## 合成数据审核
| 类别 | 所需合成数 | 已生成数 | 已校验数 | 保留数 | 通过率 |
|---|---:|---:|---:|---:|---:|
| `积极(positive)` | 72 | 80 | 72 | 49 | 90.0% |
通过率(Acceptance)指经原模型重新分类为目标类别的合成候选样本占比(自一致性校验,参考[Synthetic Imputation,arXiv 2504.15160](https://arxiv.org/abs/2504.15160))。
提供机构:
davanstrien



