five

JQL-AI/JQL-LLM-Edu-Annotations

收藏
Hugging Face2025-05-29 更新2025-08-09 收录
下载链接:
https://hf-mirror.com/datasets/JQL-AI/JQL-LLM-Edu-Annotations
下载链接
链接失效反馈
官方服务:
资源简介:
JQL LLM多语言教育质量标注数据集包含了1718万6606个文档,这些文档具有高质量的语言模型标注,用于评估网络文档的教育价值,并可作为训练和评估多语言LLM标注器的基准。数据集包含了35种欧洲语言,文档以原生语言输入,但模型提示和响应使用英语。数据集可用于训练多语言文档质量模型、基准多语言LLM性能、蒸馏和教师-学生LLM训练以及为噪声网络规模数据创建过滤器。

The JQL LLMs Multilingual Educational Quality Annotations dataset contains 17,186,606 documents with high-quality LLM annotations for evaluating the educational value of web documents, and serves as a benchmark for training and evaluating multilingual LLM annotators. It includes 35 European languages, with documents in their native language and models prompted and responded in English. The dataset is intended for training multilingual document quality models, benchmarking multilingual LLM performance, distillation and teacher-student LLM training, and creating filters for noisy web-scale data.
提供机构:
JQL-AI
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作