five

NickyNicky/aya_dataset_targets_es__keywords_scores

收藏
Hugging Face2024-03-04 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/NickyNicky/aya_dataset_targets_es__keywords_scores
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: texto dtype: string - name: palabras_clave dtype: string - name: media dtype: float64 - name: desviacion_estandar dtype: float64 - name: mediana dtype: float64 splits: - name: train num_bytes: 581191 num_examples: 996 download_size: 363098 dataset_size: 581191 configs: - config_name: default data_files: - split: train path: data/train-* --- # Desviación, Mediana, media ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/Plcnz3gNHOch46RHSEgX5.png) # Distribución de las Medias. ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/h14E3BKxhSL9PpwupIPRH.png) ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/Wskmdvzg5WkTm77uXbD6y.png) # filtrar ```py def filter_funtion(example): # return example["media"] >.45 and example["media"] < 0.65 return example["media"] >.40 and example["media"] < 0.6 dataset = dataset.filter(filter_funtion) ``` # img ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/esV_eVVgBEaF2Fc8cBLhq.png) ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/nx1E_CNx6_n4C6rewp7Yx.png) ``` Percentil 2.5: 0.40439200000000003 Percentil 97.5: 0.5857880000000001 1 desviación estándar: (0.43049496605370396, 0.5264587304899399) 2 desviaciones estándar: (0.382513083835586, 0.5744406127080578) 3 desviaciones estándar: (0.3345312016174681, 0.6224224949261757) ``` # img ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/mFMtXA1wJPgl-bYJbUYSC.png)

数据集信息: 特征: - 名称: texto 数据类型: 字符串 - 名称: 关键词 数据类型: 字符串 - 名称: 均值 数据类型: float64 - 名称: 标准差 数据类型: float64 - 名称: 中位数 数据类型: float64 数据集划分: - 名称: 训练集 字节数: 581191 样本数: 996 下载大小: 363098 数据集总大小: 581191 配置项: - 配置名称: 默认配置 数据文件: - 划分: 训练集 路径: data/train-* --- # 标准差、中位数与均值 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/Plcnz3gNHOch46RHSEgX5.png) # 均值的分布 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/h14E3BKxhSL9PpwupIPRH.png) ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/Wskmdvzg5WkTm77uXbD6y.png) # 数据过滤 py def filter_funtion(example): # 返回示例["media"] > 0.45 且 示例["media"] < 0.65 return example["media"] > .40 and example["media"] < 0.6 dataset = dataset.filter(filter_funtion) # 图示 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/esV_eVVgBEaF2Fc8cBLhq.png) ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/nx1E_CNx6_n4C6rewp7Yx.png) 2.5百分位数: 0.40439200000000003 97.5百分位数: 0.5857880000000001 1倍标准差区间: (0.43049496605370396, 0.5264587304899399) 2倍标准差区间: (0.382513083835586, 0.5744406127080578) 3倍标准差区间: (0.3345312016174681, 0.6224224949261757) # 图示 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/mFMtXA1wJPgl-bYJbUYSC.png)
提供机构:
NickyNicky
原始信息汇总

数据集概述

数据集信息

  • 特征列表:

    • texto: 类型为字符串
    • palabras_clave: 类型为字符串
    • media: 类型为浮点数
    • desviacion_estandar: 类型为浮点数
    • mediana: 类型为浮点数
  • 数据分割:

    • train: 包含996个样本,占用581191字节
  • 数据大小:

    • 下载大小: 363098字节
    • 数据集大小: 581191字节
  • 配置:

    • default配置包含train分割的数据文件路径为data/train-*

数据过滤函数

python def filter_funtion(example): return example["media"] > 0.40 and example["media"] < 0.6

dataset = dataset.filter(filter_funtion)

统计信息

  • 百分位数:

    • 2.5百分位: 0.40439200000000003
    • 97.5百分位: 0.5857880000000001
  • 标准差区间:

    • 1标准差区间: (0.43049496605370396, 0.5264587304899399)
    • 2标准差区间: (0.382513083835586, 0.5744406127080578)
    • 3标准差区间: (0.3345312016174681, 0.6224224949261757)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作