Dados que valem ouro
Os dados coletados na era da internet já têm um valor que se aproxima do valor de todo o ouro extraído desde o início da história da humanidade, mas já supera em receita o valor de todo o ouro extraído anualmente no mundo.
Esta é uma das conclusões apresentadas por especialistas no assunto em uma reunião promovida pela Fapesp (Fundação de Amparo à Pesquisa do Estado de São Paulo) e pelo Instituto do Legislativo Paulista (ILP).
A conclusão geral é que os dados têm muito valor e, se bem explorados, podem gerar benefícios políticos, sociais e econômicos.
Mas, se por um lado, há uma infinidade de dados disponíveis para serem coletados e trabalhados, por outro há uma imensa demanda reprimida no Brasil por profissionais da área de computação.
Valor dos dados
O professor André Carlos de Carvalho, da USP, comparou o valor dos megadados megadados com o do ouro, citando que a tonelada do metal precioso vale aproximadamente US$ 40 milhões hoje.
“Em toda a história da humanidade foram extraídas 190 mil toneladas de ouro, o que dá US$ 7,6 trilhões. Juntas, as oito principais empresas que trabalham com dados no mundo hoje – Facebook, Amazon, Apple, Microsoft, Google, Baidu, Alibaba e Tencent – valiam cerca de US$ 5 trilhões em 2018, ou seja, dois terços de tudo o que foi gerado em ouro. Em 2019, os megadados terão um faturamento de US$ 190 bilhões. Já a previsão para o ouro é extrair 3 mil toneladas no ano, algo em torno de US$ 120 bilhões”, disse Carvalho.
O cálculo revela as oportunidades que os megadados e as técnicas de aprendizado de máquina podem trazer para a economia e a geração de empregos.
De acordo com Cláudia Bauzer Medeiros, da Unicamp), para que essas oportunidades se tornem realidade é preciso investir na qualidade dos dados gerados: “O que mostram estudos no mundo inteiro? Os megadados são acima de tudo dados e depois ‘big’ [grandes, muitos]. Se não houver muitos dados, não dá para fazer as análises necessárias. Por outro lado, se não houver qualidade nos dados, eles não servem para nada. E sabe-se que 80% do custo de pessoal e de infraestrutura está no pré-processamento que garante a qualidade necessária.”
Descuido com os próprios dados
Com a profusão de informações obtidas a partir de sensores, o desafio é conseguir combinar diferentes tipos de dados – históricos, mapas, notícias de jornal e até tweets – para conseguir prever, monitorar, gerar políticas públicas ou identificar produtos de interesse dos consumidores.
“Os megadados estão em toda parte. Em geral, correspondem a um conjunto de propriedades que começam com ‘v’: volume, velocidade e variedade, veracidade, visualização e valor. Porém, é preciso que se invista – e muito – em qualidade para que os dados tenham valor,” acentuou Cláudia.
Segundo a pesquisadora, o dado tem valor e também custo. “Custa a infraestrutura, o processamento. Quanto mais se preservar para usos futuros, mais se consegue extrair valor dos dados. Cerca de 30% do orçamento da agência espacial norte-americana (Nasa) é dedicado à preservação e backup de dados,” disse.
Na contramão desses cuidados, uma das primeiras medidas do atual governo brasileiro foi proibir a construção ou ampliação de centros de dados (data centers), as estruturas onde ficam armazenados, por exemplo, os cadastros de beneficiários do Bolsa Família, de produtores rurais integrantes de programas de apoio, de alunos inscritos em exames como o Enem e de toda uma gama de dados governamentais com diversos níveis de sigilo. Em vez de manter e cuidar de seus dados, o governo contratará os serviços de empresas internacionais que prestam os serviços de nuvens de dados.
Imagens como dados
Uma modalidade particular dos megadados que não deve ser desconsiderada é a imagem. Só no Instagram, são 95 milhões de fotos publicadas por dia. No Youtube, são 300 horas de vídeo publicadas por minuto.
“Em captura de imagem estamos bem, mas ainda é preciso melhorar a análise dessas imagens por meio do aprendizado de máquina. A ideia é usar o computador para extrair qualquer tipo de informação útil e relevante a partir dos dados,” explicou Nina Hirata, da USP.
Fonte: Agências Fapesp e Brasil