patufet-educat
收藏Hugging Face2024-08-25 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/pauhidalgoo/patufet-educat
下载链接
链接失效反馈官方服务:
资源简介:
patufet-educat数据集是一个针对加泰罗尼亚语教育内容的过滤版本,源自CulturaX数据集,并受到fineweb-edu数据集的启发。该数据集包含文本、时间戳、URL、来源和教育评分等特征,分为训练集,包含大量样本和字节数。数据集的创建涉及使用合成数据进行内容过滤,通过评分系统对文本样本进行分类,并使用FastText模型进行训练。过滤过程中选择了较低的阈值以平衡分类器性能和加泰罗尼亚语文本的有限可用性。数据集尚未进行评估,但预计将有助于提高加泰罗尼亚语语言模型的质量。
创建时间:
2024-08-20
原始信息汇总
Patufet-educat 数据集概述
数据集信息
特征
- text: 字符串类型
- timestamp: 字符串类型
- url: 字符串类型
- source: 字符串类型
- edu_score: 64位整数类型
分割
- train: 包含3,468,535个样本,总字节数为14,682,661,351
大小
- 下载大小: 8,961,553,686字节
- 数据集大小: 14,682,661,351字节
配置
- default: 包含训练数据文件,路径为
data/train-*
语言
- 加泰罗尼亚语(ca)
名称
- Patufet Educat
数据集概述
patufet-educat 数据集是从 Cultura X 数据集中筛选出的加泰罗尼亚语教育内容版本,灵感来源于 fineweb-edu 数据集。
数据集过滤
标注
- 使用 gemini-1.5-flash 模型对 Oscar 语料库中的100,000个文本样本进行评分,评分范围从0到7。
- 标注的网页样本可在 这里 找到。
分类
过滤
- 选择阈值为3,比fineweb-edu的阈值更低,以平衡分类器性能和加泰罗尼亚语文本的有限可用性。
- 过滤过程在笔记本电脑上耗时4小时35分钟。
遇到的问题
- 选择0到7的评分范围,以更好地区分低质量和中等质量内容。
- Gemini API标记了一些样本为不安全内容,排除在数据集外,标记为999(缺失数据)。
评估
- 该数据集尚未进行评估,但根据fineweb-edu和其他类似过滤数据集的结果,预计将有助于提高加泰罗尼亚语语言模型的质量。
注意事项和免责声明
- 剩余有害内容: 尽管过滤了大部分有害材料,但仍可能存在一些不良内容。
- 排除有用内容: 某些教育主题,如与性繁殖相关的主题,可能因过滤过程而被无意排除。
- 缺乏编程内容: 鉴于加泰罗尼亚语内容的性质,该数据集中可能缺乏编程或技术材料。
- 个人和敏感信息: 该数据集源自CommonCrawl,可能仍包含个人或敏感数据。用户在使用数据集进行深度学习模型训练等任务前必须考虑这一点。
许可证
结论和建议
- 加泰罗尼亚语内容的有限可用性: 检测到高质量教育内容的有限可用性,这导致我们选择较低的过滤阈值。
- 质量与数量: 由于加泰罗尼亚语内容较少,我们面临质量与数量的权衡。为了确保足够大的数据集,我们包含了一些质量一般的“meh”内容。
- 敏感主题: 一些重要且无害的敏感主题因Gemini API的高安全设置而被排除。
- 改进过滤模型: 如果资源允许,使用基于transformer的模型进行分类可能会产生更高质量的数据集。
- 更广泛的数据收集: 为了解决加泰罗尼亚语内容的稀缺性,未来的努力可以集中在更广泛的数据收集上,甚至可以抓取特定的教育网站或创建更有针对性的爬虫。
尽管存在这些挑战,patufet-educat 数据集代表了开发加泰罗尼亚语教育工具和语言模型的宝贵资源。虽然有改进的空间,但该数据集提供了坚实的基础,可以在未来的迭代中构建。通过分享过程和考虑因素,我们希望促进这一领域的进一步发展,并鼓励研究人员和开发人员在低/中资源语言方面进行合作。
搜集汇总
数据集介绍

构建方式
`patufet-educat`数据集的构建过程基于对Cultura X数据集中加泰罗尼亚语内容的筛选,特别聚焦于教育类文本。首先,从Oscar语料库中选取了10万条文本样本,使用Gemini模型进行评分,评分范围从0到7,以区分内容质量。随后,利用FastText训练文本分类器,对样本进行分类,并设定阈值为3进行过滤,最终保留了约三分之二的原数据集内容。整个分类和过滤过程在笔记本电脑上耗时4小时35分钟。
特点
`patufet-educat`数据集的特点在于其专注于加泰罗尼亚语的教育内容,涵盖了文本、时间戳、URL、来源及教育评分等特征。数据集的构建过程中,采用了较为宽松的过滤阈值,以确保在加泰罗尼亚语内容有限的情况下,仍能保留足够的数据量。此外,数据集通过Gemini模型和FastText分类器的结合,实现了对教育内容的精准筛选,尽管可能存在少量有害或敏感内容,但整体质量较高。
使用方法
`patufet-educat`数据集适用于加泰罗尼亚语教育类语言模型的训练与开发。用户可通过Hugging Face平台下载数据集,并根据需要调整过滤阈值以获取不同质量的数据。数据集中的文本、时间戳、URL等信息可用于多任务学习,如文本分类、时间序列分析等。此外,用户还可参考GitHub仓库中的源代码,进一步定制数据集的构建流程,以满足特定研究需求。
背景与挑战
背景概述
`patufet-educat`数据集是一个专注于加泰罗尼亚语教育内容的过滤版本,其灵感来源于`fineweb-edu`数据集,并基于`Cultura X`数据集中的加泰罗尼亚语内容构建。该数据集由研究人员Pau Hidalgo等人于近期创建,旨在为加泰罗尼亚语的教育资源提供高质量的语言模型训练数据。通过使用Gemini模型对文本进行评分,并结合FastText分类器进行过滤,数据集最终筛选出约三分之二的内容,涵盖了从低质量到中等质量的教育文本。这一工作不仅填补了加泰罗尼亚语教育数据集的空白,还为低资源语言的机器学习研究提供了重要参考。
当前挑战
构建`patufet-educat`数据集的过程中面临多重挑战。首先,加泰罗尼亚语的高质量教育内容稀缺,导致数据集在数量与质量之间难以平衡,最终选择了较低的过滤阈值以保留更多数据。其次,尽管使用了Gemini模型进行内容评分,但由于其高安全性设置,部分敏感但重要的教育主题(如性教育)被误判为不安全内容而被排除。此外,资源限制使得分类器仅能基于FastText而非更先进的Transformer模型,影响了数据集的整体质量。最后,数据集可能仍包含少量有害或敏感信息,需用户在使用时谨慎处理。
常用场景
经典使用场景
在自然语言处理领域,`patufet-educat`数据集主要用于训练和评估加泰罗尼亚语的教育内容相关的语言模型。该数据集通过筛选和标注加泰罗尼亚语的教育文本,为研究人员提供了一个高质量的语料库,特别适用于教育领域的文本生成、分类和翻译任务。
解决学术问题
`patufet-educat`数据集解决了加泰罗尼亚语教育资源匮乏的问题,尤其是在自然语言处理领域。通过提供大量经过筛选的教育文本,该数据集为研究人员提供了一个可靠的语料库,支持加泰罗尼亚语语言模型的开发与优化,推动了低资源语言在教育领域的研究进展。
衍生相关工作
基于`patufet-educat`数据集,研究人员已经开发了多个加泰罗尼亚语语言模型,并应用于教育文本的分类和生成任务。此外,该数据集还启发了其他低资源语言的教育数据集构建工作,如`patufet-textbooks`,进一步推动了多语言教育资源的开发与应用。
以上内容由遇见数据集搜集并总结生成



