‘Big Data’ es un concepto de moda en el sector tecnológico, pero en ámbitos como el de la seguridad es ya mucho más que eso: las empresas están empezando a apostar fuerte por la implantación de herramientas basadas en la agregación y análisis de grandes volúmenes de datos para permitir la detección de actividad maliciosa. La moda ha llegado, sin duda, para quedarse.
Pero… ¿cuáles son sus ventajas? Pensemos en la situación actual: la creciente penetración de los dispositivos móviles, la introducción de Internet de las Cosas, el aumento global del número de internautas… todo ello está provocando un crecimiento del número de accesos, transacciones, usuarios y vulnerabilidades de los sistemas tecnológicos, con la consiguiente multiplicación de datos en crudo (en la World Wide Web, en las bases de datos o en los ‘logs’ de los servidores), cada vez más complejos y variados, y generados a una velocidad mayor.
En esas circunstancias, urge adoptar herramientas capaces de capturar y procesar todos esos datos, ayudando a visualizar su flujo y aplicar técnicas de aprendizaje automático capaces de descubrir patrones y detectar anomalías.
Big Data + Machine Learning: buscando la aguja en el pajar
Muchos de los ciberataques exitosos tienen algo en común: están diseñados para funcionar a resguardo del ruido generado por las alertas IDS/IPS (una organización de tamaño medio puede experimentar decenas de miles de alertas al día), ocultando su rastro entre grandes volúmenes de información generada por las operaciones diarias de las empresas e instituciones atacadas. La clave para detectar esas intrusiones radica en reconocer ese rastro de pequeñas anomalías, un moderno equivalente a la aguja en el pajar. Por fortuna, precisamente esa es una labor en la que destaca el Big Data.
Ante tal volumen diario de alertas, queda condenado al fracaso cualquier intento de recurrir a una supervisión humana en tiempo real de las mismas con el objetivo de descubrir concentraciones inusuales de ataques con un objetivo, tipología o fuente específicos. Pero ahí donde los humanos fallamos, los algoritmos de machine learning (algoritmos de bajo nivel no basados en instrucciones explícitas, sino en la detección de patrones implícitos en los datos) son capaces de ‘aprender’ las actividades normales de un sistema y detectar en tiempo real un proceso inusual de cualquiera de sus dispositivos.
La clave de la importancia del uso del Big Data en análisis de seguridad radica en el hecho de que, mientras los humanos perdemos eficacia según aumenta el volumen de datos a analizar, las máquinas pueden usarlo para mejorar su detección de anomalías del mismo modo en que las encuestas mejoran su capacidad predictiva cuanto más amplia y representativa es la muestra.
Adaptive Defense, una solución de Panda basada en Big Data
Un ejemplo de la utilidad de aplicar el Big Data y el Machine Learning a las herramientas de seguridad lo encontramos en Adaptive Defense, el software que en Panda lanzamos recientemente para hacer frente a las APT, un malware de nueva generación frente al que los antivirus tradicionales se muestran impotentes.
Adaptive Defense es capaz de realizar análisis continuos del software que intenta ejecutarse en un sistema, clasificando todas las aplicaciones de forma automática gracias a los algoritmos de Machine Learning. Esto permite al usuario recibir alertas inmediatas con informes completos acerca de la naturaleza y actividad del malware, e incluso activar modos de bloqueo que sólo permitan la ejecución del software clasificado como ‘goodware’.
A tener en cuenta: los ‘Datos grandes’ también son datos
La apuesta por el Big Data como pilar básico de la estrategia de ciberseguridad de las empresas conlleva -como ya hemos atisbado- una extensa lista de ventajas, pero a su vez genera nuevas precauciones: si bien el análisis de esos grandes volúmenes de datos perfecciona la detección de actividad maliciosa capaz de generar filtraciones… la posibilidad de que esta nueva clase de datos masivos pudiera llegar a filtrarse conllevaría unas repercusiones legales y de reputación mucho más graves que las experimentadas hasta ahora.