NickyNicky/aya_dataset_targets_es__keywords_scores
收藏Hugging Face2024-03-04 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/NickyNicky/aya_dataset_targets_es__keywords_scores
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: texto
dtype: string
- name: palabras_clave
dtype: string
- name: media
dtype: float64
- name: desviacion_estandar
dtype: float64
- name: mediana
dtype: float64
splits:
- name: train
num_bytes: 581191
num_examples: 996
download_size: 363098
dataset_size: 581191
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# Desviación, Mediana, media

# Distribución de las Medias.


# filtrar
```py
def filter_funtion(example):
# return example["media"] >.45 and example["media"] < 0.65
return example["media"] >.40 and example["media"] < 0.6
dataset = dataset.filter(filter_funtion)
```
# img


```
Percentil 2.5: 0.40439200000000003
Percentil 97.5: 0.5857880000000001
1 desviación estándar: (0.43049496605370396, 0.5264587304899399)
2 desviaciones estándar: (0.382513083835586, 0.5744406127080578)
3 desviaciones estándar: (0.3345312016174681, 0.6224224949261757)
```
# img

数据集信息:
特征:
- 名称: texto
数据类型: 字符串
- 名称: 关键词
数据类型: 字符串
- 名称: 均值
数据类型: float64
- 名称: 标准差
数据类型: float64
- 名称: 中位数
数据类型: float64
数据集划分:
- 名称: 训练集
字节数: 581191
样本数: 996
下载大小: 363098
数据集总大小: 581191
配置项:
- 配置名称: 默认配置
数据文件:
- 划分: 训练集
路径: data/train-*
---
# 标准差、中位数与均值

# 均值的分布


# 数据过滤
py
def filter_funtion(example):
# 返回示例["media"] > 0.45 且 示例["media"] < 0.65
return example["media"] > .40 and example["media"] < 0.6
dataset = dataset.filter(filter_funtion)
# 图示


2.5百分位数: 0.40439200000000003
97.5百分位数: 0.5857880000000001
1倍标准差区间: (0.43049496605370396, 0.5264587304899399)
2倍标准差区间: (0.382513083835586, 0.5744406127080578)
3倍标准差区间: (0.3345312016174681, 0.6224224949261757)
# 图示

提供机构:
NickyNicky
原始信息汇总
数据集概述
数据集信息
-
特征列表:
texto: 类型为字符串palabras_clave: 类型为字符串media: 类型为浮点数desviacion_estandar: 类型为浮点数mediana: 类型为浮点数
-
数据分割:
train: 包含996个样本,占用581191字节
-
数据大小:
- 下载大小: 363098字节
- 数据集大小: 581191字节
-
配置:
default配置包含train分割的数据文件路径为data/train-*
数据过滤函数
python def filter_funtion(example): return example["media"] > 0.40 and example["media"] < 0.6
dataset = dataset.filter(filter_funtion)
统计信息
-
百分位数:
- 2.5百分位: 0.40439200000000003
- 97.5百分位: 0.5857880000000001
-
标准差区间:
- 1标准差区间: (0.43049496605370396, 0.5264587304899399)
- 2标准差区间: (0.382513083835586, 0.5744406127080578)
- 3标准差区间: (0.3345312016174681, 0.6224224949261757)



