NickyNicky/aya_dataset_targets_es__keywords_scores

Name: NickyNicky/aya_dataset_targets_es__keywords_scores
Creator: NickyNicky
Published: 2024-03-04 22:49:59
License: 暂无描述

Hugging Face2024-03-04 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/NickyNicky/aya_dataset_targets_es__keywords_scores

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: texto dtype: string - name: palabras_clave dtype: string - name: media dtype: float64 - name: desviacion_estandar dtype: float64 - name: mediana dtype: float64 splits: - name: train num_bytes: 581191 num_examples: 996 download_size: 363098 dataset_size: 581191 configs: - config_name: default data_files: - split: train path: data/train-* --- # Desviación, Mediana, media ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/Plcnz3gNHOch46RHSEgX5.png) # Distribución de las Medias. ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/h14E3BKxhSL9PpwupIPRH.png) ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/Wskmdvzg5WkTm77uXbD6y.png) # filtrar ```py def filter_funtion(example): # return example["media"] >.45 and example["media"] < 0.65 return example["media"] >.40 and example["media"] < 0.6 dataset = dataset.filter(filter_funtion) ``` # img ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/esV_eVVgBEaF2Fc8cBLhq.png) ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/nx1E_CNx6_n4C6rewp7Yx.png) ``` Percentil 2.5: 0.40439200000000003 Percentil 97.5: 0.5857880000000001 1 desviación estándar: (0.43049496605370396, 0.5264587304899399) 2 desviaciones estándar: (0.382513083835586, 0.5744406127080578) 3 desviaciones estándar: (0.3345312016174681, 0.6224224949261757) ``` # img ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/mFMtXA1wJPgl-bYJbUYSC.png)

数据集信息: 特征: - 名称: texto 数据类型: 字符串 - 名称: 关键词数据类型: 字符串 - 名称: 均值数据类型: float64 - 名称: 标准差数据类型: float64 - 名称: 中位数数据类型: float64 数据集划分: - 名称: 训练集字节数: 581191 样本数: 996 下载大小: 363098 数据集总大小: 581191 配置项: - 配置名称: 默认配置数据文件: - 划分: 训练集路径: data/train-* --- # 标准差、中位数与均值 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/Plcnz3gNHOch46RHSEgX5.png) # 均值的分布 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/h14E3BKxhSL9PpwupIPRH.png) ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/Wskmdvzg5WkTm77uXbD6y.png) # 数据过滤 py def filter_funtion(example): # 返回示例["media"] > 0.45 且示例["media"] < 0.65 return example["media"] > .40 and example["media"] < 0.6 dataset = dataset.filter(filter_funtion) # 图示 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/esV_eVVgBEaF2Fc8cBLhq.png) ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/nx1E_CNx6_n4C6rewp7Yx.png) 2.5百分位数: 0.40439200000000003 97.5百分位数: 0.5857880000000001 1倍标准差区间: (0.43049496605370396, 0.5264587304899399) 2倍标准差区间: (0.382513083835586, 0.5744406127080578) 3倍标准差区间: (0.3345312016174681, 0.6224224949261757) # 图示 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/mFMtXA1wJPgl-bYJbUYSC.png)

提供机构：

NickyNicky

原始信息汇总

数据集概述

数据集信息

特征列表:
- texto: 类型为字符串
- palabras_clave: 类型为字符串
- media: 类型为浮点数
- desviacion_estandar: 类型为浮点数
- mediana: 类型为浮点数
数据分割:
- train: 包含996个样本，占用581191字节
数据大小:
- 下载大小: 363098字节
- 数据集大小: 581191字节
配置:
- default配置包含train分割的数据文件路径为data/train-*

数据过滤函数

python def filter_funtion(example): return example["media"] > 0.40 and example["media"] < 0.6

dataset = dataset.filter(filter_funtion)

统计信息

百分位数:
- 2.5百分位: 0.40439200000000003
- 97.5百分位: 0.5857880000000001
标准差区间:
- 1标准差区间: (0.43049496605370396, 0.5264587304899399)
- 2标准差区间: (0.382513083835586, 0.5744406127080578)
- 3标准差区间: (0.3345312016174681, 0.6224224949261757)

5,000+

优质数据集

54 个

任务类型

进入经典数据集