five

inoculation-midtraining-mixes

收藏
Hugging Face2026-03-17 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/geodesic-research/inoculation-midtraining-mixes
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,每个配置具有相同的特征结构,包括文本内容、类型、源行索引、自定义ID、排名、实验和单词计数等字段。数据集规模较大,不同配置的训练集样本数量从469,000到4,056,000不等,数据量从2.8GB到20.2GB不等。所有配置均为纯文本数据,适用于自然语言处理任务,如文本分类、信息检索或实验性研究。具体配置包括不良医疗、极限运动、风险金融等多个领域,可能用于特定领域的文本分析或模型训练。
创建时间:
2026-03-03
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作