Big Data – Parte 2: Desafios para a aplicação da análise de grandes bancos de dados

Big Data 2

        A análise de grandes bases de dados eletrônicas (“big data”) permite a elaboração de predições mais precisas, o que resulta em uma melhor tomada de decisões nos negócios e também no setor saúde. Entretanto, algumas características especiais do processamento desse tipo de bancos de dados dificultam sua implementação em larga escala. Comentamos abaixo os 4 principais desafios para utilização da análise de big data em organizações públicas ou privadas:

Desafio 1: complexidade analítica

        Bancos de dados muito volumosos, que exigem habilidades analíticas avançadas para a detecção de erros, pontos fora da curva e dados faltantes. Por exemplo, métodos para a ligação de grandes bancos de dados, com elevada confiabilidade na identificação dos indivíduos são fundamentais para a organização e análise desse volume de informações.

Desafio 2: Informações redundantes e contraditórias

        De acordo com a forma como uma mesma informação foi coletada em 2 diferentes bases de dados, o mesmo dado pode apresentar informações incoerentes. Suponhamos que, em uma base de dado, a pergunta feita ao usuário é: você é portador de hipertensão arterial? Em outra base de dados, a pergunta poderia ser: alguma vez, algum profissional da saúde lhe disse que você tinha pressão alta ou lhe prescreveu medicamentos para regular a pressão arterial? A forma concisa e técnica como a primeira versão da pergunta foi elaborada pode levar a muitas respostas “falso-negativas”, enquanto a forma mais abrangente e menos técnica da segunda versão da pergunta apresenta maior sensibilidade para detectar um diagnóstico de hipertensão. O problema surge quando um mesmo nome de variável ( “hipertensão”), é usado nos dois bancos de dados. Sendo assim, uma das limitações do uso de grandes bancos de dados é o risco de uma interpretação equivocada da variável devido ao distanciamento da forma como a mesma foi coletada. Além disso, é necessário o estabelecimento de algoritmos para a solução do dilema de informações aparentemente conflitantes em diferentes bases de dados.

Desfio 3: Dados inéditos e a elaboração de novos preditores

        O comportamento de saúde dos usuários é cada vez mais rastreável na internet e vai bem além de questionários relacionados a saúde que coletam informações sobre fatores de risco clássicos para o desenvolvimento de doenças, como tabagismo, uso abusivo de álcool, horas de sono, peso, altura, idade, história familiar ou a presença de doenças conhecidas. Pode-se rastrear muitos desses hábitos e fatores de risco pelo estudo dos websites visitados, pelo número de horas conectado em uma determinada rede social, ou até mesmo pela forma como o usuário digita no teclado do seu computador. Ou seja, estamos diante de uma era de identificação e quantificação do impacto de novos fatores de risco. Fatores de risco mensuráveis de forma confiável pela internet e pala interação do usuário com a tecnologia. E a difusão dos chamados “weareble devices”, como o Google Glass ou o Apple Watch produzirão quantidades de informação digital sobre a saúde das pessoas sem precedentes, possivelmente gerando desafios analíticos novos para os analista de Big Data.

Desafio 4: Dados estruturados versus dados não estruturados

       Estima-se que até 80% das informações captadas na área da saúde sobre o atendimento a pacientes esteja em formato não estruturado, ou seja, esteja no formato de texto livre e não organizado no formato de uma variável numérica, dicotômica, contínua, categórica ou ordinal, que possa ser imediatamente submetida a análise estatística. Existem basicamente três abordagens para superar essa limitação: a primeira delas consiste em ajustar as interações dos usuários com os sistemas de informação para que mais informações passem a ser coletadas em formato estruturado. A segunda, consiste em revisão humana dos dados não estruturados e recompilação das informações para um banco de dados estruturado, um processo trabalhoso e sujeito a erros. Por fim, o desenvolvimento de inteligências artificiais capazes de ler dados não estruturados e convertê-los em dados estruturados aparece como a alternativa de maior potencial para ampliar o aproveitamento das informações coletadas. No entanto, a complexidade de programação necessária para automatizar esse processo está em seus passos iniciais, e as aplicações de Inteligência artificial para leitura de dados não estruturados estão ainda restrita a situações específicas.

Médico internista e epidemiologista, pesquisador clínico, empreendedor, educador.

Marcado com: ,
Publicado em Artigos Publicados, Conteúdo Teórico

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

*

Posts Anteriores