Por Francisco Barguil, CEO e dono da Opus Software
“A sabedoria consiste em ordenar bem a nossa própria alma.” — Platão
Em uma das primeiras palestras que assisti como aluno recém-ingresso no curso de Ciência da Computação da Unicamp, nos idos de 1981, o Prof. Rubens Murillo Marques foi direto ao ponto: “Como diretor executivo da Fundação SEADE [1], meu maior desafio não é tecnológico. Meu maior desafio é encontrar sábios; sábios que sejam capazes de interpretar e analisar a montanha de dados que tabulamos e processamos”[2].
Em tempos de Big Data, a criação de modelos que permitam interpretar adequadamente a quantidade enorme de dados disponíveis é tarefa ainda mais desafiadora. No mês passado, um artigo publicado na revista Science evidenciou que o projeto Google Flu Trends vem fracassando na tentativa de indicar os surtos de gripe ao redor do mundo. O projeto do Google é baseado na ideia de que existe uma correlação entre o número de pesquisas realizadas no buscador pelo termo “gripe” por usuários de uma determinada região e o número de pessoas com os sintomas da gripe. O fato é que, acumulando dados anualmente desde 2007, a tal correlação simplesmente não se confirma. O mesmo ocorre com a variante do projeto dedicada à dengue. Aliás, nesse caso, se olharmos o mapa indicador de ocorrências de dengue do projeto, teremos a falsa impressão de que o Brasil é o país com maior incidência da doença quando, na verdade, 70% dos casos estão localizados na Ásia, com 34% concentrados na Índia, conforme estimativa recente.
Ainda em março passado, a IEEE (Institute of Electric and Electronic Engineering) destacou em sua seção “Questão do Mês” a previsão realizada em um post do blog da revista Wired, de que a materialização do conceito de Internet das Coisas (IoT – Internet of Things) será limitada pela capacidade de análise da gigantesca quantidade de dados que será gerada quando o conceito se tornar realidade. Segundo o autor, as empresas já estão sobrecarregadas tentando administrar e interpretar os dados de que já dispõem, e um aumento significativo dessa quantidade de informações poderá levá-las a um colapso de processamento.
Mas então, todo esse barulho provocado pelo Big Data é apenas propaganda enganosa? Claro que não! Estamos diante de um fenômeno inédito na história. Nunca as atividades cotidianas realizadas pelo ser humano estiveram tão rastreadas. Desde o comportamento online dos internautas, passando pelos registros de localização gerados pelo equipamento de GPS instalado nos smartphones (devidamente conectados) pessoais, e pelos dados gerados pelo crescente número de sensores e câmeras espalhados por aí, tudo tem sido devidamente salvo para análise posterior. Nossos relacionamentos profissionais e pessoais estão devidamente mapeados pelas redes sociais, e nossos hábitos e preferências de consumo estão lá, guardadinhos, esperando pela devida análise para revelarem aspectos sobre nossas vidas das quais talvez nem nós mesmos tenhamos consciência.
Claro, nossa esperança é de que tais informações sejam usadas em nosso próprio benefício, como indivíduos e como sociedade. Mas, para que a grande promessa do Big Data de permitir uma análise preditiva dessas informações que permita aos provedores de produtos e serviços se anteciparem às nossas necessidades se cumpra, alguns obstáculos precisarão ser vencidos.
Mas então, qual o problema com o Big Data?
O principal problema levantado pelo artigo da Science citado acima é o encantamento que parece estar sendo provocado pela capacidade de gerar, armazenar e processar informações proporcionada pela tecnologia atual, que os autores chamam de “Big Data Hubris” (ou “arrogância do Big Data”). Esse fenômeno seria resultante da pressuposição de que o acúmulo e processamento de grandes quantidades de informações seria um substituto – e não um complemento – para as ferramentas tradicionais de coleta e análise de dados.
Ao longo dos séculos a metodologia científica veio acumulando ferramentas e práticas para coletar e analisar dados de maneira a ampliar o entendimento dos fenômenos naturais e sociais. Esse entendimento progride através das seguintes etapas: descrição, explicação e capacidade de previsão do fenômeno. Ou seja, para interpretar devidamente um determinado fenômeno é necessário primeiro descrevê-lo com clareza. Em seguida, é necessário encontrar uma explicação para o fenômeno, identificando suas eventuais causas e consequências. Finalmente, pode ser possível formular suas leis de funcionamento ou um modelo representativo que permita estabelecer certo grau de previsibilidade para sua ocorrência e seus desdobramentos. Claro, na grande maioria das vezes, cumprir adequadamente essa sequência de passos implica na formulação de hipóteses, condução de experimentos, levantamento de exemplos e contraexemplos e por aí vai. Ao longo do processo, pode ser necessário inclusive alterar o método utilizado para coleta de dados, em busca de informações que validem ou rejeitem cada hipótese formulada.
Portanto, não basta acumular uma grande quantidade de informações. Pode ser que boa parte dos dados que fazem parte do acervo de repositórios de Big Data que vêm sendo acumulados ao redor do mundo não tenha o rigor metodológico e os cuidados de coleta que os tornem úteis para análises conclusivas.
A necessidade de um novo profissional
Em um primeiro momento, é natural que a atenção esteja voltada para o amadurecimento das ferramentas tecnológicas necessárias para a manipulação desses grandes volumes de informação. Embora as plataformas tecnológicas estejam evoluindo muito rapidamente, ainda há desafios a serem vencidos, e grande parte das soluções voltadas para o Big Dataainda é desenvolvida por equipes compostas exclusivamente por profissionais da área de tecnologia, com foco em aspectos de desempenho e custo.
Entretanto, está cada vez mais claro que apenas tecnologia e força computacional bruta não serão suficientes para entregar os benefícios prometidos pelo Big Data, e é necessário incluir outros conhecimentos na concepção de soluções. Assim como o surgimento dos bancos de dados relacionais exigiu a formação de novos profissionais capazes de estruturar adequadamente soluções usando aquele modelo – administradores de dados, DBAs e especialistas de business intelligence – também agora um novo conjunto de habilidades deverá ser desenvolvido e integrado, formando uma nova categoria profissional.
O que se espera de um profissional de Big Data?
Esse novo profissional, que vem sendo chamado de cientista de dados, deverá ser capaz de:
- Estruturar sistemas de informação que permitam a inferência de conhecimentos a partir de grandes volumes de dados estruturados e desestruturados;
- Estabelecer modelos para a coleta dos dados que alimentarão esses sistemas de forma metódica e com validade estatística, incluindo técnicas de limpeza e consistência de dados;
- Analisar informações presentes em bases com grandes volumes de dados e verificar sua consistência;
- Extrair e interpretar as informações presentes em bases com grandes volumes de dados;
- Construir modelos de inferência que permitam extrair conclusões válidas a partir das informações disponíveis;
- Conceber formas de sintetizar as informações e comunicá-las com clareza para os profissionais das áreas de negócio das organizações.
É importante ressaltar que realizar as atividades acima não exige que os profissionais sejam capazes de construir plataformas de Big Data, mas que sejam capazes de especificar e encomendar tais sistemas para os especialistas em tecnologia.
E quais devem ser os conhecimentos desses novos profissionais, que os tornem capazes de realizar de maneira competente as tarefas acima sem cair na armadilha da “arrogância doBig Data”?
Como se tornar um profissional de Big Data?
Para identificar quais habilidades são necessárias para um bom profissional de Big Data, uma boa dica é examinar os currículos dos cursos de especialização sobre o tema Ciência de Dados, especialmente aqueles que começam a ser oferecidos pelas universidades de ponta, sejam eles presenciais ou online. Por exemplo, esses dois cursos que oferecem currículos multidisciplinares: o programa de mestrado em Ciência de Dados da Universidade de Berkeley e o curso de curta duração elaborado pela Universidade de Washington e oferecido pelo Coursera.
As áreas de concentração das disciplinas dos dois cursos são similares:
- Estatística e Análise de Dados;
- Visualização de Dados;
- Conceitos de Armazenamento e Recuperação de Dados;
- Modelos de Aprendizado de Máquina.
Como você pode observar, o conhecimento necessário abrange disciplinas de áreas distintas. De um lado, é necessário conhecer elementos como mecanismos de armazenamento de dados e algoritmos de inteligência artificial, além de dominar as tradicionais técnicas de Estatística que, segundo meu querido professor da FGV-EAESP, Prof. Abraham Laredo, é “a arte de torturar os números até que eles confessem”. De outro lado, é preciso estudar conceitos de design, harmonização de formas e comunicação visual.
E isso é suficiente?
Assim como já acontece há tantos anos com os profissionais de análise de sistemas, que conhecem técnicas para levantamento de dados e estruturação de sistemas, mas precisam de especialistas de negócio das áreas específicas para o desenho de sistemas de informática, também esse será o caso para o cientista de dados. Afinal, a ideia é que o Big Data seja um complemento à expertise, e não um substituto dela.
Entretanto, cabe aqui a pergunta: será que isso é suficiente? Será que o uso de técnicas estatísticas e análise de tendências pré-concebidas permitirá, apenas através de indicadores objetivos, identificar os aspectos subjetivos presentes nos registros comportamentais armazenados nesses grandes repositórios? O que dizer dos desejos não atendidos, dos sonhos à espera da concretização? Todos eles representam grandes oportunidades de melhorar a vida das pessoas, e obviamente novas oportunidades de negócio também.
Acredito, sinceramente, que o primeiro grau de exploração do potencial do Big Data – esse grau que estamos entrando agora – permitirá confirmar hipóteses e identificar tendências lineares, agrupando fatos que apresentam correlação direta uns com os outros. Mas, para identificar aqueles elementos subjetivos, para encontrar relações não óbvias entre os fatos, não bastarão as técnicas estatísticas, algoritmos de inteligência artificial, modelos didáticos de visualização de dados. Será necessário fazer perguntas mais ousadas, levantar hipóteses mais arrojadas, percorrer possibilidades inéditas. Talvez aqui se apresente a necessidade de contarmos com aqueles sábios aos quais se referia o Prof. Rubens.
[1] O SEADE (Sistema de Análise de Dados e Estatística) é uma fundação vinculada à Secretaria de Planejamento e Desenvolvimento Regional do Estado de São Paulo que se dedica à produção e disseminação de análises e estatísticas socioeconômicas e demográficas.
[2] O Prof. Rubens foi o primeiro diretor do IMECC (Instituto de Matemática, Estatística e Ciência da Computação) da Unicamp. Acadêmico carismático, ousado e inovador, ele foi o responsável pela criação do primeiro curso de Bacharelado em Ciência da Computação do Brasil, além de implantar um dos primeiros cursos de Bacharelado em Estatística do país, ambos no final dos anos 60. À época da palestra de que participei, em 1981, estava licenciado de suas atividades na universidade para se dedicar ao cargo de diretor executivo da Fundação SEADE.