Como detectar el fraude en salud

  - Jairo Alexander feb -2018

Entre 2012 y 2015 se incrementaron inexplicablemente los diagnósticos de hemofilia  en el departamento de Córdoba - Colombia. Aparecieron 47 en 2013, y en un año pasaron a 81 y poco después a 117. La hemofilia, como se sabe, es una enfermedad hereditaria, poco frecuente – 10 casos por 100.000 habitantes en el mundo y 3.8/100.000 en Colombia. El anterior caso se trataba del cartel de la hemofilia, un caso famoso de fraude el cual extrajo millones de pesos al sistema de salud Colombiano.

Al igual que este cartel ha surgido, el cartel del síndrome de Down, el cartel de la gafas, el cartel de la enfermedad mental, el cartel del SOAT (el de Buga), y recientemente el cartel del SIDA.

La pregunta que todos se hacen, es por que no se detecto esto a tiempo, si es posible detectar esto en primer lugar ? y como hacerlo?

La respuesta es "SI" de hecho la revisión manual o automática de los datos mediante algoritmos  evidencia un incremento inusitado de los casos en enfermedades sin causa lógica aparente, simplemente tomando la media y dos desviaciones estándar los casos atípicos resaltan a la vista, lo cual amerita una revisión mas profunda.

Un análisis de experto considerando que son enfermedades de alto costo, de epidemiologia conocida, y con registro histórico conocido, también permite la identificación de los "outliers"

"Si hemos visto las anomalías y el pasado es coherente con el futuro, podemos saber cuándo comienzan las anomalías, a veces incluso antes de que comiencen"
  
Existen varios métodos tanto estadísticos, como de aprendizaje maquina, o basados en conocimientos de expertos que permiten detectar datos anómalos, atípicos, o novedosos en un registro o base de datos, el siguiente diagrama muestra un bosquejo basado en los datos con ejemplos de algoritmos, que pueden ser usados en R, Knime, RapidMiner, y Scikit-learning.




De estos métodos destaco lo básico primero, calcular una media aritmética y la desviación estándar, lo que este fuera del rango de  dos o tres desviaciones puede ser considerado un outliers, como estimador de la media y la desviación estándar también se puede usar un Z- score, en este caso  los scores calculados para cada elemento del conjunto de datos que excedan su valor absoluto en 3.5, serán considerados valores atípicos. (ser recomienda usar el z score modificado)

 Del resto de algoritmos se destaca LOF, y  Knn, ( implementados en extensión anomaly detection de RapidMiner -software comercial, ol libre con limitaciones),  y DBSCAN (Knime software libre - sin limitaciones) tampoco hay que olvidar el sentido común, el conocimiento básico de las enfermedades, y las gráficas tanto de dispersión, como los de cajas o Boxplot.


Outliers  anomalías novedades, desviaciones, excepciones, o atípicos: Son elementos, eventos u observaciones que no se ajustan a un patrón esperado u otros elementos en un conjunto de datos, pueden deberse a mucha cosas entre ellas el  fraude.

ejemplos:

Detección de outliers o anomalias en serie temporal de VIH deparatamento Cordoba Colombia
software R librería tsoutlier https://cran.r-project.org/web/packages/tsoutliers/tsoutliers.pdf
Fuente el autor
Detección de outliers en datos de  VIH  Colombia
software Matlab, ajustedboxplot.m de libreria LIBRA https://wis.kuleuven.be/stat/robust/LIBRA
Los numero corresponde a los 33 dep de Colombia orden alfabetico y total.
fuente el autor

Evaluación de diferentes algoritmos 
fuente scikit-learning .org

Detección de outliers en datos de  VIH  Colombia
software R,  de libreria ggplot2


fuente: Jairo Alexander 2018

ejemplos de diagramas de flujo y codigo (R) sobre plataformas para detección de anomalías:

Detección de anomalías en Tableau -R





Detección de anomalías en Knime




Detección de anomalías en RapidMiner




Fuentes:

1. Hodge, V., & Austin, J. (2004). A survey of outlier detection methodologies. Artificial intelligence review, 22(2), 85-126.

2. Rousseeuw, P. J. and Hubert, M. (2017), Anomaly detection by robust statistics. WIREs Data Mining Knowl Discov, e1236. doi:10.1002/widm.1236

3. Goldstein, M., & Uchida, S. (2016). A comparative evaluation of unsupervised anomaly detection algorithms for multivariate data. PloS one, 11(4), e0152173.

4. Gogoi, P., Borah, B., & Bhattacharyya, D. K. (2010). Anomaly detection analysis of intrusion data using supervised & unsupervised approach. Journal of Convergence Information Technology, 5(1), 95-110.


No hay comentarios:

Publicar un comentario