somosnlp-hackathon-2023/alpaca-es-auto-filter
收藏Hugging Face2023-04-09 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp-hackathon-2023/alpaca-es-auto-filter
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: 'null'
- name: inputs
struct:
- name: 1-instruction
dtype: string
- name: 2-input
dtype: string
- name: 3-output
dtype: string
- name: prediction
dtype: 'null'
- name: prediction_agent
dtype: 'null'
- name: annotation
dtype: string
- name: annotation_agent
dtype: string
- name: vectors
struct:
- name: input
sequence: float64
- name: instruction
sequence: float64
- name: output
sequence: float64
- name: multi_label
dtype: bool
- name: explanation
dtype: 'null'
- name: id
dtype: string
- name: metadata
struct:
- name: bias_score.label
dtype: string
- name: bias_score.score
dtype: float64
- name: en_index
dtype: int64
- name: hate_score.label
dtype: string
- name: hate_score.score
dtype: float64
- name: sf-multi-unprocessable-score
dtype: float64
- name: sf-unprocessable-score
dtype: float64
- name: tr-flag-1-instruction
dtype: bool
- name: tr-flag-2-input
dtype: bool
- name: tr-flag-3-output
dtype: bool
- name: status
dtype: string
- name: event_timestamp
dtype: timestamp[us]
- name: metrics
struct:
- name: text_length
dtype: int64
splits:
- name: train
num_bytes: 986677188
num_examples: 51942
download_size: 653488377
dataset_size: 986677188
---
# Dataset Card for "alpaca-es-hackaton"
La base de datos original ha sido proporcionada por SomosNLP y se encuentra [aquí](https://huggingface.co/datasets/somosnlp/somos-clean-alpaca-es)
Este conjunto de datos es una traducción del dataset Clean Alpaca al Español y sirve como referencia para el esfuerzo colaborativo de limpieza y mejora del dataset durante el [Hackathon Somos NLP 2023](https://somosnlp.org/hackathon). *Nota: No es necesario participar en el hackathon para contribuir a esta tarea.*
Los scripts, modelos y, en general, el código asociado a estas tareas se puede encontrar en el Github de [Burra](https://github.com/maxserras/burra)
En este reto, hemos anotado manualmente unos cuantos ejemplos y hemos analizado de manera semi-automática el dataset para identificar ciertas inconsistencias.
1- Instrucciones mal traducidas: los ejemplos que tengan la misma instrucción tanto en el corpus de [inglés](https://github.com/maxserras/burra/blob/master/corpus/alpaca_data_cleaned.json) como el de castellano han sido etiquetados automáticamente como "BAD INSTRUCTION"
2- Identificación de ejemplos mal traducidos usando LangID, se identifican a nivel de metadatos:
- tr-flag-1-instruction: True, para el caso de que la instrucción esté mal traducida
- tr-flag-2-input: True, para el caso de que la entrada esté mal traducida
- tr-flag-3-outcome: True, no hace falta que lo expliquemos, ¿no?
4- Evaluar dos modelos de setfit para detección de ejemplos no procesables como URLs, Fotografías, Imágenes, y todos aquellos elemenos donde el modelo no tiene capacidad de asimilación.
- st-multi-unprocessable-score: float - para la evaluación realizada con el [modelo](https://huggingface.co/hackathon-somos-nlp-2023/setfit-alpaca-es-unprocessable-sample-detection-multi) entrenado sobre la base multilingue.
- st-unprocessable-score: float - para la evaluación realizada con el [modelo](https://huggingface.co/hackathon-somos-nlp-2023/setfit-alpaca-es-unprocessable-sample-detection) sin base multilingue.
5- Alinear el corpus de EN y ES a nivel de traducción usando [LASER](https://github.com/facebookresearch/LASER). No todos los elementos han podido ser alineados, pero por lo general, si no se han podido alinear, la traducción o el ejemplo suelen presentar errores, con lo cual recomendamos descartar esos ejemplos.
- en_index: int, el metadato asociado al índice de la lista del [corpus inicial en inglés](https://github.com/maxserras/burra/blob/master/corpus/alpaca_data_cleaned.json).
6- Analizar los ejemplos con modelos pre-entrenados de [Bias Detection](https://huggingface.co/d4data/bias-detection-model) y [Hate Speech Detection](https://huggingface.co/Hate-speech-CNERG/bert-base-uncased-hatexplain) y volcar los resultados en los metadatos de:
- hate_score.label, hate_score.score
- bias_score.label, bias_score.label
提供机构:
somosnlp-hackathon-2023
原始信息汇总
数据集概述
数据集名称
- "alpaca-es-hackaton"
数据集特征
- text: 数据类型为
null。 - inputs: 结构化数据,包含以下子特征:
- 1-instruction: 数据类型为
string。 - 2-input: 数据类型为
string。 - 3-output: 数据类型为
string。
- 1-instruction: 数据类型为
- prediction: 数据类型为
null。 - prediction_agent: 数据类型为
null。 - annotation: 数据类型为
string。 - annotation_agent: 数据类型为
string。 - vectors: 结构化数据,包含以下子特征:
- input: 序列类型为
float64。 - instruction: 序列类型为
float64。 - output: 序列类型为
float64。
- input: 序列类型为
- multi_label: 数据类型为
bool。 - explanation: 数据类型为
null。 - id: 数据类型为
string。 - metadata: 结构化数据,包含以下子特征:
- bias_score.label: 数据类型为
string。 - bias_score.score: 数据类型为
float64。 - en_index: 数据类型为
int64。 - hate_score.label: 数据类型为
string。 - hate_score.score: 数据类型为
float64。 - sf-multi-unprocessable-score: 数据类型为
float64。 - sf-unprocessable-score: 数据类型为
float64。 - tr-flag-1-instruction: 数据类型为
bool。 - tr-flag-2-input: 数据类型为
bool。 - tr-flag-3-output: 数据类型为
bool。
- bias_score.label: 数据类型为
- status: 数据类型为
string。 - event_timestamp: 数据类型为
timestamp[us]。 - metrics: 结构化数据,包含以下子特征:
- text_length: 数据类型为
int64。
- text_length: 数据类型为
数据集分割
- train:
- num_bytes: 986677188
- num_examples: 51942
数据集大小
- download_size: 653488377
- dataset_size: 986677188



