Especialista diz que as soluções de Big Data podem ser combinadas com metodologias antifraude, pois oferecem um repositório flexível, escalável e de detecção em tempo real
Por Dan Reznik*
Num artigo anterior, falamos sobre aplicações de Big Data na Saúde, oferecendo alguns exemplos: orientação preventiva a pacientes com tendência a complicações, acompanhamento personalizado a pacientes crônicos, geração de conhecimento a partir de integração de bases de dados (clínicos, laboratoriais, diagnósticos) e golden-path: qual a melhor maneira de tratar um paciente X com quadro Y.
Neste artigo, focamos numa outra importante aplicação: sistemas antifraude baseados em Big Data Analytics, para seguradoras e operadoras de Saúde.
Big Data é, primordialmente, um banco para grandes massas de dados e programas de análise e visualização, rodando ordens de grandeza mais rápido que em soluções convencionais. Outras características são (a) escalabilidade irrestrita da armazenagem, (b) gerenciamento de dados mistos (estruturados, texto, redes sociais, etc.), (c) análises complexas em tempo real sem data warehouse, (d) hardware comoditizado e software open-source, etc.
Os três Vs de Big Data, Volume, Velocidade e Variedade caem como uma luva para sistemas antifraude, associados a um acervo copioso de sinistros históricos (Volume), sendo gerados continuamente e requerendo análise em tempo real (Velocidade). Além disso, um ganho em precisão é possível mesclando-se vários tipos de fontes, estruturadas (sinistros, dados do paciente, exames laboratoriais) ou não (laudos em texto, exames radiológicos, redes sociais). O quarto V do Big Data, igualmente importante, é a Veracidade. A precisão de um sistema de análise reside na confiabilidade dos dados (baixa taxa de ruído ou lacunas), o que evita o efeito “garbage in, garbage out”. Um projeto de data analytics é precedido por uma fase laboriosa de saneamento das várias bases de dados, muitas vezes consumindo até 80% do esforço total.
Em 2012, o mercado de seguros de Saúde Suplementar no Brasil foi de aproximadamente R$100 bilhões, atendendo a quase 50 milhões de usuários (1/4 da população brasileira). Com um crescimento anual de 20% ao ano, este mercado atingirá R$150 bilhões em 2015. A ANS estima em aproximadamente 80% a sinistralidade (custo em relação à receita) das operadoras e seguradoras e a ABRAMGE estima que a fraude sobre estes custos seja de 20%. Acreditamos que esta estimativa seja muito conservadora, pois a taxa de fraude nos EUA é de 33%. O mercado antifraude para a Saúde Suplementar no Brasil em 2015 será, então, de pelo menos R$24 bilhões. Debelar 1% deste problema, através de qualquer iniciativa (analítica ou não), significa minimizar perdas das operadoras e seguradoras de pelo menos R$ 240 milhões/ano.
Fraudes típicas incluem cobrança por serviços e/ou materiais não providos, serviços e/ou materiais mais caros que utilizados (upcoding), excessivos, e/ou desnecessários. Outras incluem sinistros duplicados, cobranças distribuídas ao longo do tempo (unbundling) e uso tendencioso de produtos mediante pagamentos de gratificações pelos fabricantes (kickbacks), podendo este último também estimular superfaturamento. Em pedidos de adesão a planos de saúde, há o problema do identity theft, onde o solicitador utiliza identidade e dados demográficos de um terceiro, ganhando acesso a planos mais baratos. Alguns destes padrões são de difícil detecção em plataformas convencionais de gerenciamento de dados, mas se tornam eficientemente detectáveis por soluções de Big Data, graças à velocidade de varredura do repositório, além do cruzamento possível sobre várias fontes e formatos de dados.
Um ponto sensível, mas realista, é que todos os segmentos da Saúde contêm agentes fraudadores: fabricantes/distribuidores, administradores, clínicas, operadores de hospitais, indústria farmacêutica, médicos, empresas de transporte, infraestrutura e construção civil. O problema é, além de financeiramente significativo, complexo e sistêmico, e sua abordagem requer no mínimo três mecanismos: (a) ética, (b) controle, e (c) resposta. A “ética” consiste em difundir, entre membros de uma organização (quiçá sociedade?), um código de conduta com definições e regulamentos do que é inaceitável, respaldados por programas constantes de educação e treinamento. Por “controle” entendem-se métodos de detecção e medição do nível de fraude (analíticos ou não), e aqueles alimentados por dados são o tema central deste artigo. Finalmente, “resposta” é o processo investigativo e jurídico de localização, punição e recuperação das perdas por fraude. Quão mais cedo fraudes são detectadas, menor serão os custos da resposta.
Os custos das operadoras brasileiras se dividem aproximadamente em partes iguais entre procedimentos ambulatoriais (consultas, exames, fisioterapia) e hospitalares (internações, procedimentos). Dos gastos hospitalares, metade é despendida em OPMEs (órteses, próteses e materiais especiais) e a outra metade em custos médicos. Uma grande fonte de custos hospitalares é a fraude em cirurgias de alta complexidade (CACs). Estudos comparativos com hospitais de referência revelam um padrão insidioso: fora destes, há um excesso de recomendação a CACs, quando um simples tratamento conservador bastaria. Nestes casos, OPMEs são utilizados excessiva e tendenciosamente. Os custos se agravam já que no Brasil, OPMEs importados sofrem um mark-up de até 5 vezes do fornecedor ao paciente com custos finais entre 8 a 10 vezes mais altos que nos EUA. Nestes casos, o alto padrão de ética em hospitais de referência pode economizar até 75% dos custos em CACs.
Tais fatores causaram, em 2012, um crescimento dos custos para operadoras e seguradoras 3 vezes maior do que o da inflação. Por pressão financeira, tais custos acabam sendo repassados total ou parcialmente para os usuários dos planos.
Como dissemos acima, sistemas antifraude são um mecanismo de controle da fraude. Especificamente, visam identificar pedidos suspeitos em dois processos essenciais: (a) aprovação (ou rejeição) de sinistros, e (b) novos pedidos de adesão a um plano. Um requerimento básico é o da identificação com grande precisão, isto é, com baixas taxas de falsos negativos (pedidos fraudados e não identificados) e falsos positivos (pedidos legítimos dirigidos desnecessariamente à revisão). Por sua vez, isto eleva a produtividade de uma equipe de analistas, já que estes passam a focar somente em pedidos com alta probabilidade de fraude.
O método de identificação utilizado tradicionalmente é o de regras: sinistros ou pedidos históricos ou correntes são analisados a partir de certos predicados lógicos definidos por experts. Por exemplo, todo pedido para procedimento X com valor acima de Y deve ser flagrado. Uma alternativa que não depende da intuição de experts é a detecção por anomalias: pedidos ou sinistros contendo combinações de variáveis “fora da curva” da distribuição de dados históricos são flagrados (exemplo: neste sinistro, os custos deste procedimento estão dois desvios padrões acima da média da região). Um terceiro método, oferecendo a maior flexibilidade de modelagem, são os classificadores preditivos (árvores de decisão, regressão logística, redes neurais, etc.). Estes requerem uma fase de treinamento, durante a qual o modelo é ajustado a partir de uma base de pedidos passados, individualmente etiquetados como normais ou suspeitos (o processo de etiquetamento apresenta certas dificuldades, já que a legitimidade de um pedido histórico nem sempre é clara retroativamente). Após o treinamento, o classificador pode ser usado na identificação de fraude em novos casos.
Na prática, um sistema robusto estima a probabilidade de fraude a partir da soma ponderada de probabilidades produzidas por um ou mais métodos acima (regras, anomalias e preditivo). Quão maior o volume e variedade de dados utilizados na fase de ajuste dos pesos da ponderação, maior a precisão na classificação de novos pedidos ou sinistros. Neste sentido, as soluções Big Data oferecem duas contribuições únicas: (a) a massa de sinistros ou pedidos históricos pode ser utilizada na sua totalidade (sem amostragem) durante a fase de treinamento; (b) dados não estruturados (laudos texto, redes sociais) podem ser convertidos a um formato estruturado, contribuindo como variáveis adicionais e elevando o poder discriminatório do modelo. Por exemplo, a conexão social de um usuário com outros fraudadores e/ou o conteúdo semântico de seus posts em mídias sociais podem estar correlacionados a seu potencial de fraude; (c) o sistema pode aprender e ser reajustado continuamente, na medida em que pedidos recentes são incorporados ao treinamento e pedidos muito antigos são descartados.
Sistemas antifraude nas operadoras e seguradoras brasileiras são, atualmente, pacotes proprietários baseados em métodos de regras e/ou detecção de anomalias. Os métodos preditivos, assim como os sistemas Big Data, apesar de seu maior poder computacional e de modelagem, têm ainda pouca ou nenhuma penetração. Desafios importantes no “upgrade” de tais sistemas incluem: (a) racionalizar fontes de dados antigas, pulverizadas e frequentemente não documentadas, (b) códigos analíticos legados com 2 a 3 décadas de idade (a linguagem COBOL não é rara), (c) escassez de analistas locais e de alta qualidade para a fase de preparo dos dados e acompanhamento pós-implantação, (d) custos iniciais e de projetos proibitivos pelas grandes consultorias (além da mão de obra remota e acompanhamento pós projeto esporádico). Estes fatores têm causado insucessos frequentes (além de caros) nas primeiras tentativas de upgrade dos últimos anos. Esta situação se reverterá tão logo surjam, nos próximos anos, empresas com equipes world-class, devidamente treinadas em data analytics, big data, métodos preditivos e processamento de texto, além da importantíssima habilidade de comunicação, dado que tais projetos exigem aprendizado, coordenação e negociação constante com stake-holders de negócios e membros das equipes de TI.
Conclusão: a fraude na Saúde é um tema complexo, sistêmico e financeiramente significativo (20-33% da sinistralidade). Dados os custos crescentes de serviços e materiais médicos, assim como volumes crescentes de adesão, sistemas analíticos de controle da fraude são sine qua non. As soluções de Big Data são particularmente apropriadas, pois oferecem um repositório flexível, escalável e de detecção em tempo real, onde várias metodologias antifraude podem ser combinadas e treinadas por inputs em formatos mistos, oferecendo um alto nível de precisão na detecção. Há uma forte demanda no Brasil de mão de obra especializada que permitirá projetos de upgrade a serem entregues com qualidade e compromisso de acompanhamento.
*Dan Reznik – Carioca, 45, PhD em Ciência da Computação pela UC-Berkeley (2001), fundou em 2011 a Upper West Soluções, que abriga uma equipe world-class de cientistas dos dados, focados em soluções e Big Data Analytics
Fonte Saudeweb
Nenhum comentário:
Postar um comentário