Dataset y Benchmark reproducible de lenguaje abusivo en español (IID vs OOD-LODO)

Name: Dataset y Benchmark reproducible de lenguaje abusivo en español (IID vs OOD-LODO)
Creator: e-cienciaDatos
Published: 2026-02-25 12:54:28
License: 暂无描述

DataCite Commons2026-02-25 更新2026-04-25 收录

下载链接：

https://edatos.consorciomadrono.es/citation?persistentId=doi:10.21950/N5WZJS

下载链接

链接失效反馈

官方服务：

资源简介：

<section aria-label="Descripción del repositorio"> <h2>Benchmark reproducible (español) + harness de evaluación</h2> <p> Este repositorio proporciona un <strong>benchmark reproducible</strong> para detección de lenguaje abusivo en español, diseñado para comparar modelos bajo <strong>protocolos cerrados</strong> y con <strong>trazabilidad por artefactos</strong>. El foco es medir robustez <em>cross-dataset</em> (IID vs. LODO) de forma auditable, evitando decisiones implícitas. </p> <h3>Construido sobre</h3> <ul> <li> <strong>Dataset unificado</strong> (<code>data/all.csv</code>) con contrato explícito: esquema canónico, procedencia (<code>dataset_id</code>, <code>dialect_region</code>) y mapeo trazable de <code>raw_label</code> a un objetivo binario <code>y</code>. </li> <li> <strong>Protocolos versionados</strong> como especificaciones: P1 (IID, split fijo) y P2 (LODO, Leave-One-Dataset-Out por <code>dataset_id</code>). </li> <li> <strong>Manifests deterministas</strong> (<code>manifests/</code>) que materializan splits y folds de forma estable. </li> <li> <strong>Runs auditables</strong> (<code>runs/&lt;run_id&gt;/</code>) y reportes generados <strong>leyendo artefactos</strong> (sin recomputación <em>ad hoc</em> de métricas). </li> </ul> <h3>No es</h3> <ul> <li><strong>No</strong> es un producto de moderación desplegable.</li> <li> <strong>No</strong> es un benchmark para inferir causalidad dialectal: <code>dialect_region</code> es colineal con <code>dataset_id</code> en este release y se usa como descriptor operacional. </li> </ul> </section>

提供机构：

e-cienciaDatos

创建时间：

2026-02-24