Apuntes del Doc. Alexander

Como detectar el fraude en salud

- Jairo Alexander feb -2018

Entre 2012 y 2015 se incrementaron inexplicablemente los diagnósticos de hemofilia en el departamento de Córdoba - Colombia. Aparecieron 47 en 2013, y en un año pasaron a 81 y poco después a 117. La hemofilia, como se sabe, es una enfermedad hereditaria, poco frecuente – 10 casos por 100.000 habitantes en el mundo y 3.8/100.000 en Colombia. El anterior caso se trataba del cartel de la hemofilia, un caso famoso de fraude el cual extrajo millones de pesos al sistema de salud Colombiano.

Al igual que este cartel ha surgido, el cartel del síndrome de Down, el cartel de la gafas, el cartel de la enfermedad mental, el cartel del SOAT (el de Buga), y recientemente el cartel del SIDA.

La pregunta que todos se hacen, es por que no se detecto esto a tiempo, si es posible detectar esto en primer lugar ? y como hacerlo?

La respuesta es "SI" de hecho la revisión manual o automática de los datos mediante algoritmos evidencia un incremento inusitado de los casos en enfermedades sin causa lógica aparente, simplemente tomando la media y dos desviaciones estándar los casos atípicos resaltan a la vista, lo cual amerita una revisión mas profunda.

Un análisis de experto considerando que son enfermedades de alto costo, de epidemiologia conocida, y con registro histórico conocido, también permite la identificación de los "outliers"

"Si hemos visto las anomalías y el pasado es coherente con el futuro, podemos saber cuándo comienzan las anomalías, a veces incluso antes de que comiencen"

Existen varios métodos tanto estadísticos, como de aprendizaje maquina, o basados en conocimientos de expertos que permiten detectar datos anómalos, atípicos, o novedosos en un registro o base de datos, el siguiente diagrama muestra un bosquejo basado en los datos con ejemplos de algoritmos, que pueden ser usados en R, Knime, RapidMiner, y Scikit-learning.

De estos métodos destaco lo básico primero, calcular una media aritmética y la desviación estándar, lo que este fuera del rango de dos o tres desviaciones puede ser considerado un outliers, como estimador de la media y la desviación estándar también se puede usar un Z- score, en este caso los scores calculados para cada elemento del conjunto de datos que excedan su valor absoluto en 3.5, serán considerados valores atípicos. (ser recomienda usar el z score modificado)

Del resto de algoritmos se destaca LOF, y Knn, ( implementados en extensión anomaly detection de RapidMiner -software comercial, ol libre con limitaciones), y DBSCAN (Knime software libre - sin limitaciones) tampoco hay que olvidar el sentido común, el conocimiento básico de las enfermedades, y las gráficas tanto de dispersión, como los de cajas o Boxplot.

Outliers anomalías novedades, desviaciones, excepciones, o atípicos: Son elementos, eventos u observaciones que no se ajustan a un patrón esperado u otros elementos en un conjunto de datos, pueden deberse a mucha cosas entre ellas el fraude.

ejemplos:

Detección de outliers o anomalias en serie temporal de VIH deparatamento Cordoba Colombia

software R librería tsoutlier https://cran.r-project.org/web/packages/tsoutliers/tsoutliers.pdf

Fuente el autor

Detección de outliers en datos de VIH Colombia

software Matlab, ajustedboxplot.m de libreria LIBRA https://wis.kuleuven.be/stat/robust/LIBRA

Los numero corresponde a los 33 dep de Colombia orden alfabetico y total.
fuente el autor

Evaluación de diferentes algoritmos

fuente scikit-learning .org

Detección de outliers en datos de VIH Colombia

software R, de libreria ggplot2

fuente: Jairo Alexander 2018

ejemplos de diagramas de flujo y codigo (R) sobre plataformas para detección de anomalías:

Detección de anomalías en Tableau -R

Detección de anomalías en Knime

Detección de anomalías en RapidMiner

Fuentes:

1. Hodge, V., & Austin, J. (2004). A survey of outlier detection methodologies. Artificial intelligence review, 22(2), 85-126.

2. Rousseeuw, P. J. and Hubert, M. (2017), Anomaly detection by robust statistics. WIREs Data Mining Knowl Discov, e1236. doi:10.1002/widm.1236

3. Goldstein, M., & Uchida, S. (2016). A comparative evaluation of unsupervised anomaly detection algorithms for multivariate data. PloS one, 11(4), e0152173.

4. Gogoi, P., Borah, B., & Bhattacharyya, D. K. (2010). Anomaly detection analysis of intrusion data using supervised & unsupervised approach. Journal of Convergence Information Technology, 5(1), 95-110.

Como detectar el fraude en salud

No hay comentarios:

Publicar un comentario

Archivo del blog