five

GodVerb

收藏
Hugging Face2025-11-28 更新2025-11-29 收录
下载链接:
https://huggingface.co/datasets/tiagoloeblein/GodVerb
下载链接
链接失效反馈
官方服务:
资源简介:
GigaVerbo Clean是一个基于TucanoBR/GigaVerbo数据集的葡萄牙语文本清洗和去重数据集,包含数十亿的tokens。它提供了一个强大的清洗管道,包括语言过滤、垃圾和元数据移除、文本规范化、简单语义分类和哈希去重等功能,以保证数据的质量和一致性,适用于语言模型的训练。
创建时间:
2025-11-26
原始信息汇总

GigaVerbo Clean 数据集概述

基本信息

  • 数据集名称: GigaVerbo Clean
  • 作者: Tiago Loeblein
  • 版本: v76
  • 状态: 生产级大规模葡萄牙语数据集清洗流水线
  • 许可证: 继承自源数据集

数据集描述

GigaVerbo Clean是从TucanoBR/GigaVerbo数据集处理而来的葡萄牙语文本数据集,包含数十亿个葡萄牙语词元。本数据集提供经过清洗、去重和标准化的葡萄牙语文本数据,专门用于语言模型训练。

源数据集

  • 基础数据集: TucanoBR/GigaVerbo
  • 源地址: https://huggingface.co/datasets/TucanoBR/GigaVerbo

清洗流水线功能

文本处理

  • 语言过滤:仅保留葡萄牙语置信度≥0.80的文本
  • 垃圾内容移除:色情内容、垃圾信息、代码模式、重复标题
  • 敏感信息移除:URL、电子邮件、CPF、电话号码、RG
  • 截断内容移除

标准化处理

  • 空白字符清理
  • 多空格扁平化
  • 特殊字符移除
  • 不可见前缀清理
  • 最小文本长度要求:≥25个字符

分类与去重

  • 基于模式的快速分类:instruction、question、factual、other
  • SHA-256哈希生成
  • 基于SHA值的精确去重

数据处理特性

  • 确定性顺序ID生成
  • 跨文件ID连续性保证
  • 详细处理日志记录
  • 支持可选的分句处理(使用BlingFire)

文件结构

每个输入文件生成:

  • train-{编号}-of-{总数}_clean_full.parquet
  • train-{编号}-of-{总数}_clean.log

可选生成:

  • train-{编号}-of-{总数}_clean_full.csv
  • train-{编号}-of-{总数}_clean_split.parquet

使用说明

  1. 将v76脚本置于parquet文件同目录
  2. 创建ID控制文件:last_id.txt
  3. 执行清洗脚本:python clean_v76.py

局限性

  • 源数据集可能包含个人数据,无法完全保证移除
  • 包含机器翻译内容可能影响部分样本质量
  • 分类器为启发式方法,非人工标注
  • 非深度语义过滤
  • 采用激进清洗策略,短文本和结构噪声文本将被丢弃

代码资源

  • 主清洗脚本:clean_parquet_v76.py

引用要求

使用本数据集或清洗流水线时,请同时引用原始工作:

@misc{correa2024tucanoadvancingneuraltext, title={{Tucano: Advancing Neural Text Generation for Portuguese}}, author={Corr{^e}a, Nicholas Kluge and Sen, Aniket and Falk, Sophia and Fatimah, Shiza}, year={2024}, eprint={2411.07854}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.07854}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,构建高质量数据集是提升模型性能的关键环节。GodVerb数据集源自TucanoBR/GigaVerbo原始语料,通过多阶段处理流程实现数据精炼:首先采用确定性清洗脚本对原始Parquet文件进行语言过滤,仅保留葡萄牙语置信度≥0.80的文本;继而通过SHA-256哈希值实现精确去重,并运用规则引擎移除敏感信息与噪声字符;最后通过序列化ID分配机制确保数据有序性,同时生成详细处理日志保障流程可复现性。
特点
该数据集在葡萄牙语文本处理领域展现出显著特性:其核心价值在于经过严格语言过滤与深度去重处理的数十亿token规模语料,涵盖教学指令、问题解答及事实陈述等语义类别。数据架构采用分块存储模式,每个处理单元均包含完整清洗记录与确定性标识符,支持跨文件连续编号。特别值得注意的是,该数据集通过启发式分类器实现文本语义粗粒度标注,虽未经过人工校验但为下游任务提供了有价值的元数据参考。
使用方法
对于研究者和开发者而言,该数据集的使用遵循标准化操作流程:将清洗脚本与原始Parquet文件置于同级目录,通过last_id.txt文件维护全局标识符序列。执行脚本后系统将自动完成文件检测、排序处理、增量编号及清理输出等操作,生成包含完整元数据的清洗后文件。用户可根据需求选择是否启用文本分句功能,通过BlingFire工具实现句子级分割,同时保留原始文本与清洗后数据的映射关系。
背景与挑战
背景概述
在自然语言处理领域,高质量语料库的构建对提升葡萄牙语模型性能具有关键意义。GodVerb数据集由Tiago Loeblein基于TucanoBR/GigaVerbo原始语料开发,其核心目标是通过自动化清洗流程解决葡萄牙语文本数据中的噪声问题。该数据集采用确定性处理管道,整合了语言过滤、语义分类及哈希去重等模块,为神经文本生成任务提供标准化数据支撑,显著推动了葡萄牙语大语言模型的技术发展。
当前挑战
该数据集致力于应对葡萄牙语文本质量控制的系统性难题,包括原始语料中混杂的机器翻译噪声、隐私信息残留及结构性垃圾数据。构建过程中需克服大规模并行处理的工程挑战,如保持跨文件ID序列的严格确定性、平衡启发式分类器的准确性与效率,以及设计可扩展的分布式清洗架构,这些技术瓶颈直接影响最终语料库的纯净度与可用性。
常用场景
经典使用场景
在自然语言处理领域,GigaVerbo Clean数据集作为葡萄牙语文本处理的基准资源,主要应用于大规模语言模型的预训练与微调。其经过严格清洗和去重的语料库,为研究者提供了高质量、低噪声的文本数据,显著提升了模型在语法理解、语义生成等任务上的表现。该数据集通过确定性排序和语义分类机制,确保了数据的一致性与可复现性,成为葡萄牙语NLP研究中的核心工具。
实际应用
在实际应用层面,GigaVerbo Clean支撑了智能客服、教育技术及内容生成系统的开发。其分类标注机制可直接服务于指令优化、问答系统构建等工业场景,而经过归一化处理的文本则显著提升了机器翻译与语音合成的准确性。该数据集为葡萄牙语地区的数字化转型提供了底层数据支撑,促进了多语言技术在商业与公共服务中的落地。
衍生相关工作
基于该数据集衍生的经典研究包括Tucano项目的神经文本生成框架,其通过融合清洗后语料实现了葡萄牙语生成模型的突破。后续工作进一步拓展了其在法律文本分析、社交媒体挖掘等垂直领域的应用,催生了如多模态语义对齐、低资源迁移学习等方法创新,形成了以质量可控语料为核心的葡萄牙语NLP技术生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作