Resumo Breve
Este vídeo é uma aula preparatória para o Concurso Nacional Unificado (CNU), focada no bloco 3, eixo 4, que abrange temas como dados, dados abertos, ciência de dados e big data. A professora Manu aborda os conceitos básicos e avançados desses temas, preparando os alunos para as provas da FGV.
- Explicação detalhada sobre dados, informação, conhecimento e sabedoria.
- Discussão sobre os tipos de dados: estruturados, semiestruturados e não estruturados.
- Análise do ciclo de vida dos dados e a importância dos dados abertos.
- Introdução à ciência de dados, big data e os principais papéis em projetos de dados.
Introdução [0:07]
A professora Manu inicia a aula explicando que o conteúdo é específico para o bloco 3, eixo 4 do CNU, mas também relevante para concursos nas áreas fiscal, de controle e policial. Ela destaca que a aula abordará dados, dados abertos, ciência de dados e big data, temas comuns nessas áreas. A professora também compartilha uma breve história pessoal sobre como usou o ChatGPT para aprender a usar sua máquina de lavar, demonstrando a aplicação prática da tecnologia no dia a dia.
Reta Final CNU: Bloco 3, Eixo 4 - Dados [10:32]
A professora Manu começa a aula revisando o conceito de dados, explicando que o computador é uma máquina para processar dados, transformando-os em informação. Ela usa o exemplo de palavras soltas ("mãe, frente, casa") que, sem contexto, são apenas dados, mas quando organizadas em uma frase com sentido ("Sua mãe está de frente à sua casa"), tornam-se informação. O processamento de dados segue regras predefinidas para converter dados em informação, similar ao que o cérebro humano faz constantemente. A professora explica a pirâmide de abstração dos dados, onde a abstração aumenta à medida que se sobe na pirâmide (dado, informação, conhecimento, sabedoria/inteligência), com a abstração sendo inversamente proporcional ao detalhamento.
Tipos de Dados [27:35]
A professora Manu explica os tipos de dados: estruturados, semiestruturados e não estruturados. Dados estruturados são aqueles com características conhecidas antes de existirem (números, letras, datas), cabendo em "caixinhas" predefinidas. Dados semiestruturados não podem ser classificados antes, mas podem ser classificados depois (XML, JSON, CSV). Dados não estruturados não podem ser classificados nem depois de existirem (textos em redes sociais, áudios, vídeos). Ela enfatiza que a evolução dos dados foi do estruturado para o não estruturado, com o aumento da internet e das redes sociais.
Ciclo de Vida dos Dados [34:27]
A professora Manu aborda o ciclo de vida dos dados, que inclui coleta (captura do dado), armazenamento (persistência do dado), recuperação (busca do dado no banco de dados) e descarte (quando necessário). Ela explica que todas essas fases são integradas, preparando o terreno para a próxima fase.
Dados Abertos [40:01]
A professora Manu explica que nem todo dado é aberto, mas se for, deve seguir regras específicas. Dados abertos são aqueles que qualquer pessoa pode acessar, usar, modificar e compartilhar livremente para qualquer finalidade, preservando a origem e a abertura. No Brasil, a Lei de Acesso à Informação (LAI) regulamenta o uso de dados abertos na administração pública, exigindo que sejam em formatos reutilizáveis e não proprietários (como PDF), para garantir a interoperabilidade. As vantagens incluem aumento da transparência, maior participação política e criação de aplicações colaborativas. A CGU coordena a política de dados abertos no âmbito federal por meio da Infraestrutura Nacional de Dados Abertos (INDA).
Princípios dos Dados Abertos [58:32]
A professora Manu detalha os princípios dos dados abertos definidos pela OGD: completude (disponibilidade total dos dados públicos), primariedade (apresentação na forma mais similar à coleta), atualidade (disponibilização rápida), acessibilidade (alcance máximo), processamento por máquina (extração e importação), acesso não discriminatório (disponibilidade para todos sem identificação), formatos não proprietários (sem controle exclusivo) e livres de licença (sem royalties).
Ciência de Dados [1:38:17]
A professora Manu explica que a ciência de dados surgiu com a digitalização dos dados e a necessidade de usar técnicas matemáticas e estatísticas para encontrar padrões e tendências. A ciência de dados define regras, padrões e métricas para o tratamento dos dados, buscando decisões orientadas a dados (Data Driven Decision - DDD) em vez de intuição. A professora explica que a ciência de dados é interdisciplinar, envolvendo matemática, estatística, regra de negócio e TI.
Ciclo de Vida da Ciência de Dados [1:52:33]
A professora Manu apresenta o ciclo de vida do processo de ciência de dados, que pode variar conforme a fonte. O ciclo clássico inclui descoberta dos dados, preparação dos dados (melhoria da qualidade), planejamento do modelo, construção do modelo, comunicação dos resultados e operacionalização. A Microsoft propõe um ciclo com cinco passos: entendimento do negócio, aquisição e compreensão dos dados, modelagem, implantação e validação.
Papéis em Projetos de Ciência de Dados [2:09:56]
A professora Manu descreve os principais papéis em projetos de ciência de dados, divididos em áreas administrativa/negócios (usuário solicitante, analista de negócios, gerente de projeto) e técnica (engenheiro de dados, administrador de banco de dados, cientista de dados). O analista de negócios atua como intermediário entre o usuário e a TI, garantindo que as demandas sejam pertinentes e alinhadas com os objetivos do negócio.
Big Data [2:27:19]
A professora Manu explica que big data é uma arquitetura capaz de processar um grande volume de dados em um curto espaço de tempo, permitindo a análise desses dados. Ela enfatiza que big data não é uma máquina física, mas uma combinação de tecnologias. Os dados podem ser armazenados em data warehouses (dados tratados e organizados) ou data lakes (dados brutos e não tratados).
Premissas do Big Data [2:48:05]
A professora Manu detalha as cinco premissas do big data: volume (imenso volume de dados), velocidade (alta velocidade de geração e processamento), variedade (diversidade de tipos de dados), veracidade (garantia da autenticidade dos dados) e valor (agregação de valor ao negócio). Ela destaca que as três primeiras (volume, velocidade e variedade) são consideradas essenciais.