five

Amostra aleatória de 5.000 registros de um repositório de dados de pesquisa

收藏
Figshare2025-05-04 更新2026-04-08 收录
下载链接:
https://figshare.com/articles/dataset/Amostra_aleat_ria_de_5_000_registros_de_um_reposit_rio_de_dados_de_pesquisa/28926314/1
下载链接
链接失效反馈
官方服务:
资源简介:
O conjunto de dados apresenta uma amostra aleatória composta por 5.000 registros extraídos de um repositório generalista de dados de pesquisa. O objetivo é ilustrar a diversidade de formatos, estilos e estruturas que coexistem em ambientes de dados abertos. Os registros foram selecionados de forma aleatória, sem filtragem ou normalização prévia, justamente para evidenciar a heterogeneidade típica desses ambientes, incluindo:Tags e descrições com formatação inconsistente (HTML, símbolos, idiomas mistos);Variações na presença e ausência de metadados;Diferenças de granularidade e vocabulário nos campos textuais.Os dados estão disponíveis em formato <code>.csv</code>, com delimitador <code>|</code> e codificação <code>UTF-8.O</code>s dados não passaram por nenhum tipo de tratamento e é melhor visualizado em ambiente Python ou aberto pelo Google Sheets.

本数据集包含从通用研究数据存储库中抽取的5000条随机记录样本,旨在展示开放数据环境中共存的各类格式、样式与结构的多样性。本次记录选取完全遵循随机原则,未进行任何前置筛选或标准化处理,目的正是为了凸显此类开放数据环境典型的异质性,具体涵盖:格式不一致的标签与描述(含HTML标签、特殊符号、混合语言);元数据存在与否的差异化表现;文本字段在粒度与词汇使用上的差异。本数据集以<code>.csv</code>格式存储,分隔符为<code>|</code>,编码格式为<code>UTF-8</code>。该数据集未经过任何形式的处理,建议在Python环境中查看,或使用Google Sheets打开。
提供机构:
Salustiano, Skrol
创建时间:
2025-05-04
二维码
社区交流群
二维码
科研交流群
商业服务