Se tornando um cientista de dados - Parte 1 - O que é um cientista de dados?
- Andressa Siqueira
- 24 de jul. de 2023
- 5 min de leitura

Introdução
Atualmente muito se houve falar sobre a área de ciência de dados e de Inteligência Artificial como se fossem coisas mágicas que resolvem todos os problemas de uma empresa? Mas ao olharmos melhor todo o cenário percebemos que muitas pessoas e empresas não sabem de verdade o que é a área de ciência de dados e nem o que de fato esperar das pessoas dessa área.
A ideia dessa pequena serie de artigo "Se tornando uma cientista de dados" é desmistificar a área, o profissional, tornar mais claro sua participação dentro dessas empresas e principalmente ajudar a todos que querem entrar ou estão iniciando na área.
O que é um cientista de dados?
Os cientistas de dados são uma nova geração de especialistas analíticos que possui habilidades técnicas nas áreas de ciências de dados, estatística, aprendizado de máquina e programação, que o capacita a resolver problemas complexos e identificar padrões e tendencias dos dados em que está trabalhando.
Para a comunidade em geral, um Cientista de Dados é um desses “Magos de Dados”, que pode adquirir massas de dados de diversas fontes e então limpar, tratar, organizar e preparar os dados; e, em seguida, explorar as suas habilidades em Matemática, Estatística e Machine Learning para descobrir insights ocultos de negócios e gerar inteligência. [1]
"Um Cientista de Dados representa uma evolução do papel de Analista de Negócios ou Analista de Dados." (Anjul Bhambhri, ex Vice Presidente de Big Data da IBM)
Qual é a diferença entre um cientista de dados, um analista de BI e um Engenheiro de dados?
Os papéis desses 3 profissionais estão relacionados à área de dados e análise, mas diferem em suas responsabilidades dentro das empresas.
Cientista de Dados (Data Scientist) tem como suas principais responsabilidades:
Coleta e limpeza de dados brutos.
Análise exploratória de dados para entender sua estrutura e características.
Desenvolvimento de modelos de aprendizado de máquina para previsões, classificações ou otimizações.
Implementação de algoritmos e análises estatísticas para resolver problemas específicos.
Comunicação dos resultados e insights obtidos para as partes interessadas.
Analista de BI (Business Intelligence) trabalha principalmente com ferramentas de BI para criar painéis, relatórios e visualizações de dados que possam ser facilmente compreendidos pelos gestores. Suas principais responsabilidades incluem:
Coleta e preparação de dados de fontes diversas.
Criação de painéis interativos e relatórios usando ferramentas de BI (por exemplo, Tableau, Power BI).
Identificação de tendências, padrões e oportunidades nos dados.
Acompanhamento de KPIs (Indicadores-chave de desempenho) e métricas de negócio.
Fornecimento de insights acionáveis para melhorar o desempenho e a eficiência dos negócios.
Engenheiro de Dados (Data Engineer): O engenheiro de dados é responsável por projetar, construir e manter a infraestrutura necessária para coletar, armazenar, processar e disponibilizar dados para os cientistas de dados e analistas de BI. Suas principais responsabilidades incluem:
Desenvolvimento e manutenção de pipelines de dados para coletar e armazenar dados de várias fontes.
Transformação e limpeza de dados para garantir a qualidade e a integridade dos mesmos.
Otimização de bancos de dados e sistemas de processamento para melhor desempenho.
Colaboração com cientistas de dados e analistas de BI para entender suas necessidades de dados.
Garantir a segurança e privacidade dos dados em toda a infraestrutura.
O que é preciso para ser um cientista de dados?
Não existe uma cartilha 100% correta a seguir, pois o cientista de dados é uma profissão relativamente nova e precisa de conhecimento variado de diversas técnicas e áreas. Mas algumas coisas muito valorizadas na área são:
Proficiência em programação, de preferência em linguagem Python ou R;
Conhecimentos sólidos em Estatística e Matemática;
Conhecimento do conceito e técnicas de Aprendizado de Máquina (Machine Learning);
Saber como coletar, limpar, transformar e analisar dados. Isso envolve o uso de bibliotecas e ferramentas como pandas, NumPy e SQL para manipulação e consulta de dados;
Ser capaz de criar visualizações claras e informativas por meio de ferramentas como Matplotlib, Seaborn e Tableau;
Conceitos de Big Data e Tecnologias de Armazenamento;
Compreensão de Negócios em que está inserido;
Habilidade de Resolução de Problemas.
Alguns dos itens acima são subjetivos e necessitam de prática, estudo e tentativa e erro para serem adquiridos
Quem pode fazer ciência de dados?
Qualquer pessoa que goste de analisar dados e que tenha interesse, dedicação e disposição para aprender pode se envolver com ciência de dados. Geralmente, as pessoas com formação acadêmica ou experiência em áreas como ciência da computação, estatística, matemática, engenharia ou campos relacionados têm uma base sólida para começar a trabalhar em ciência de dados. No entanto, mesmo que não tenham formação nessas áreas, é possível ingressar na área por meio de cursos de formação, bootcamps de ciência de dados e outras iniciativas de aprendizado.
Quais são as funções de um cientista de dados em uma empresa?
As principais funções são:
Coleta e limpeza de dados brutos.
Análise exploratória de dados para entender sua estrutura e características.
Desenvolvimento de modelos de aprendizado de máquina para previsões, classificações ou otimizações.
Implementação de algoritmos e análises estatísticas para resolver problemas específicos.
Comunicação dos resultados e insights obtidos para as partes interessadas.
Quais ferramentas o cientista de dados usa?
As ferramentas podem variar conforme a preferência do profissional, seu conhecimento, necessidade específica de um projeto ou com as regras de governanças da empresa.
No geral, podemos destacar as seguintes ferramentas que podem ser usadas:
Linguagens de Programação:
Python: É uma das linguagens mais populares para ciência de dados, graças às suas bibliotecas robustas, como NumPy, Pandas, Matplotlib, Seaborn, Scikit-learn e TensorFlow/PyTorch para aprendizado de máquina e inteligência artificial.
R: Amplamente utilizado em estatística e análise de dados, possui uma ampla variedade de pacotes voltados para análise e visualização de dados.
Ferramentas de Visualização:
Matplotlib e Seaborn: Bibliotecas de visualização em Python usadas para criar gráficos e plots estáticos.
Plotly e Bokeh: Bibliotecas interativas que permitem criar gráficos interativos e painéis interativos.
Tableau e Power BI: Ferramentas de Business Intelligence que permitem criar painéis interativos e relatórios de dados.
Ferramentas de Manipulação de Dados:
Pandas: Biblioteca Python que oferece estruturas de dados flexíveis e eficientes para manipulação e análise de dados.
SQL: Linguagem de consulta estruturada usada para interagir com bancos de dados relacionais.
Ferramentas de Aprendizado de Máquina:
Scikit-learn: Biblioteca em Python que oferece uma ampla gama de algoritmos de aprendizado de máquina para classificação, regressão, clustering, entre outros.
TensorFlow e PyTorch: Frameworks de código aberto para construir e treinar modelos de aprendizado de máquina e redes neurais profundas.
Ferramentas de Big Data:
Hadoop: Framework para processamento distribuído de grandes volumes de dados.
Spark: Plataforma de computação em cluster que facilita a análise de big data e o processamento paralelo.
Ferramentas de Programação Estatística:
SAS: Um software amplamente usado para análise estatística.
SPSS: Outra ferramenta popular para análise estatística e mineração de dados.
Qual é o salário de um cientista de dados?
O salário de um cientista de dados vária entre R$ 3.5 mil e R$ 55 mil no Brasil, segundo o site Glassdoor
Conclusão
A ideia geral desse primeiro artigo é de fato trazer uma visão geral sobre o que é esperado de um cientista de dados antes de entrar em minúcias em relação a ferramentas, conceitos, entre outros assuntos tão importantes para esses profissionais.
No próximo artigo da série, irei trazer quais são os passos iniciais na minha visão para quem deseja iniciar nessa área.
Referências
[1] Cientista de Dados - Por Onde Começar em 8 Passos. Disponível em: <https://blog.dsacademy.com.br/cientista-de-dados-por-onde-comecar-em-8-passos/>.
Salario de um CIENTISTA DE DADOS | Glassdoor. Disponível em: <https://www.glassdoor.com.br/Sal%C3%A1rios/cientista-de-dados-sal%C3%A1rio-SRCH_KO0,18.htm>.
CIENTISTA DE DADOS - O que faz, formação, salários | Quero Bolsa. Disponível em: <https://querobolsa.com.br/carreiras-e-profissoes/cientista-de-dados>.
Cientistas de dados: quem são e o que fazem? Disponível em: <https://www.sas.com/pt_br/insights/analytics/cientistas-de-dados.html>. Acesso em: 23 jul. 2023.
Cientista de dados: o que faz, quanto ganha e como se tornar um - Insper: Ensino Superior em Negócios, Direito, Engenharias e Ciência da Computação. Disponível em: <https://www.insper.edu.br/noticias/profissao-cientista-de-dados/>. Acesso em: 23 jul. 2023.
Cientista de Dados: O Que Faz, Salário, O Que Estudar? - Carreiras. Disponível em: <https://www.serasaexperian.com.br/carreiras/blog-carreiras/cientista-de-dados-entenda-tudo-sobre-essa-profissao/#:~:text=Conhecido%20tamb%C3%A9m%20por%20data%20scientist>. Acesso em: 23 jul. 2023.
Quem é e o que faz o cientista de dados? - Vagas. Disponível em: <https://profissoes.vagas.com.br/quem-e-o-que-faz-o-cientista-de-dados-ou-data-scientist/>. Acesso em: 23 jul. 2023.
Imagens
[I1] Os 7 melhores cursos gratuitos online de Ciência de Dados para iniciantes - IT Forum. Disponível em: <https://itforum.com.br/noticias/os-7-melhores-cursos-gratuitos-online-de-ciencia-de-dados-para-iniciantes/>. Acesso em: 14 jul. 2023.
Comentários