Cuckoo 数据集系列
收藏Cuckoo 数据集概述
数据集简介
Cuckoo 是一个模仿大型语言模型(LLM)的下一个标记预测范式的小型(0.3B)信息提取(IE)模型。它通过在给定输入上下文中标记来预测下一个标记,而不是从词汇表中检索。
数据集版本
- Cuckoo-C4: 基于 C4 数据集预训练的版本。
- Cuckoo-C4-Instruct: 结合 Cuckoo-C4 和 TuluV3 数据集的版本。
- Cuckoo-C4-Rainbow: 结合 Cuckoo-C4-Instruct 和多个 NER 数据集的版本。
- Cuckoo-C4-Super-Rainbow: 结合 Cuckoo-C4-Rainbow 和更多数据集的版本,用于提升性能。
预训练资源
- C4 (1M Split)
- TuluV3
- Rainbow Cuckoo
- Super Rainbow Cuckoo
性能展示
Cuckoo 在多个 IE 任务上展示了卓越的性能,例如在 CoNLL2003、BioNLP2004 等数据集上取得了较高的 F1 分数。Super Rainbow Cuckoo 在某些任务上达到了超过 80% 的 F1 分数。
快速体验
用户可以通过加载预训练模型和分词器,定义提取函数,然后调用该函数来快速体验 Cuckoo 在下一个标记提取任务上的能力。
少样本适应
Cuckoo 模型支持在少样本情况下对特定任务进行适应,例如通过在 CoNLL2003 或 SQuAD 数据集上进行微调。
自定义任务
用户可以通过创建自己的 Jsonlines 文件来微调 Cuckoo 模型,以适应自定义任务。
引用
@article{DBLP:journals/corr/abs-2502-11275, author = {Letian Peng and Zilong Wang and Feng Yao and Jingbo Shang}, title = {Cuckoo: An {IE} Free Rider Hatched by Massive Nutrition in {LLM}s Nest}, journal = {CoRR}, volume = {abs/2502.11275}, year = {2025}, url = {https://doi.org/10.48550/arXiv.2502.11275}, doi = {10.48550/arXiv.2502.11275}, eprinttype = {arXiv}, eprint = {2502.11275}, timestamp = {Mon, 17 Feb 2025 19:32:20 +0000}, biburl = {https://dblp.org/rec/journals/corr/abs-2502-11275.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }




