five

Amostra aleatória de 5.000 registros de um repositório de dados de pesquisa

收藏
DataCite Commons2025-06-01 更新2025-05-07 收录
下载链接:
https://figshare.com/articles/dataset/Amostra_aleat_ria_de_5_000_registros_de_um_reposit_rio_de_dados_de_pesquisa/28926314/1
下载链接
链接失效反馈
官方服务:
资源简介:
O conjunto de dados apresenta uma amostra aleatória composta por 5.000 registros extraídos de um repositório generalista de dados de pesquisa. O objetivo é ilustrar a diversidade de formatos, estilos e estruturas que coexistem em ambientes de dados abertos. Os registros foram selecionados de forma aleatória, sem filtragem ou normalização prévia, justamente para evidenciar a heterogeneidade típica desses ambientes, incluindo:Tags e descrições com formatação inconsistente (HTML, símbolos, idiomas mistos);Variações na presença e ausência de metadados;Diferenças de granularidade e vocabulário nos campos textuais.Os dados estão disponíveis em formato <code>.csv</code>, com delimitador <code>|</code> e codificação <code>UTF-8.O</code>s dados não passaram por nenhum tipo de tratamento e é melhor visualizado em ambiente Python ou aberto pelo Google Sheets.

本数据集抽取自通用研究数据仓库,包含5000条随机选取的样本记录,旨在展现开放数据环境中各类格式、样式与结构共存的多样性特征。本次记录选取未进行任何预先过滤或标准化处理,完全基于随机抽样,以此凸显开放数据环境典型的异质性特点,具体涵盖: 1. 标签与描述格式不一致(包含HTML标记、特殊符号、混合语言); 2. 元数据(metadata)存在与否的差异; 3. 文本字段在粒度与词汇使用上的差异。 本数据集以<code>.csv</code>格式发布,分隔符为<code>|</code>,编码格式为<code>UTF-8</code>。该数据集未经过任何预处理,建议在Python环境中查看,或通过Google Sheets打开。
提供机构:
figshare
创建时间:
2025-05-04
二维码
社区交流群
二维码
科研交流群
商业服务