Que los algoritmos que estructuran la Inteligencia Artificial están sesgados es algo que a nadie le sorprende. La IA aprende patrones a partir de datos del mundo real que, lamentablemente, está lleno de desigualdades, errores y limitaciones. Lo que sí llama la atención es que esos sesgos también pueden afectar la capacidad de la IA para detectar amenazas, proteger sistemas y tomar decisiones adecuadas frente a ciberataques

Algoritmos sesgados: una amenaza desde el origen

Mirándose el ombligo. Muchos modelos de inteligencia artificial nacen con una visión limitada del mundo, centrada únicamente en datos condicionados a la mirada de quien los elige que no representan la diversidad real. Estas IA aprenden sólo desde su propia burbuja de información, ignorando otras voces, contextos y patrones. Unos sesgos que no sólo vemos reflejados en resultados que en muchas ocasiones resultan racistas, sexistas u homófobos, sino que también pueden abrir brechas de seguridad. 

Esta parcialidad en la IA ya es objeto de estudio. Son varias las publicaciones que examinan el alcance de los sesgos de la inteligencia artificial también en el plano de la ciberseguridad, como el que encargó el gobierno de Reino Unido a Grant Thornton UK y Manchester Metropolitan Unversity, que mapeó las vulnerabilidades específicas de esta tecnología en cada fase de su ciclo de vida, desde el diseño al desarrollo, el despliegue y el mantenimiento, y que reveló manipulación deliberada en los datos que la alimentan. Y el proyecto europeo Charlie, liderado por la Universidad de las Islas Baleares, que se centra en detectar y minimizar sesgos en modelos de IA, incluido su impacto en ciberseguridad. 

La inteligencia artificial ni es inteligente ni es artificial. Es una disciplina que no razona ni comprende como lo hace una persona, sólo procesa patrones estadísticos y repite lo aprendido en sus datos de entrenamiento. Precisamente son esos datos los que convierten a esta tecnología en un instrumento sesgado, porque los algoritmos en los que se basa son creados por humanos y entrenados con datos humanos siguiendo estructuras de lógica humana que, lamentablemente, pecan de arbitrarios. 

Brechas de seguridad

Una IA entrenada solo con datos de ataques en redes empresariales de EEUU, por ejemplo,  puede no detectar patrones de ciberataques comunes en Latinoamérica o África, si estos no estuvieron en el dataset. Los algoritmos de ciberseguridad entrenados sin diversidad en los datos fallan al reconocer ataques opacos o de otras regiones, lo que genera alertas inocuas (falsos positivos) y amenazas ignoradas (falsos negativos). 

Éste no es el único ejemplo en el que los sesgos inherentes a los algoritmos de inteligencia artificial afectan a la eficacia y seguridad de los sistemas defensivos. El estudio Effect of AI Algorithm Bias on the Accuracy of Cybersecurity Threat Detection, elaborado en 2023, demostró que se puede engañar a un sistema de detección de botnets en IoT (por sus siglas en inglés Internet of Things) manipulando únicamente un atributo del tráfico. Usaron técnicas adversariales basadas en explicabilidad del modelo para ocultar el malware completamente.

Ignorar patrones culturales o tecnológicos específicos es otro de los fallos en los que se suele caer cuando se alimenta a la IA. Porque puede dar lugar a respuestas automatizadas inadecuadas o inefectivas en ciertos entornos.

Explotación de sesgos y ataques internos

Así, los modelos con sesgo pueden discriminar o excluir usuarios legítimos provocando bloqueos o restricciones por patrones que reflejan desviaciones sociales o geográficas. Como con todo, esta parcialidad en los datos de la IA también puede ser explotada por los atacantes.

“Los ciberdelincuentes pueden estudiar cómo responde una inteligencia artificial y manipularla para que ignore ciertas actividades sospechosas, por ejemplo, colapse con falsas alertas o se vuelva ineficaz mediante ataques adversariales”, avisa Hervé Lambert, Global Consumer Operations Manager en Panda Security.

 

Durante el II Foro Retina que se celebró en España en 2024, los expertos advirtieron sobre la vulnerabilidad de los modelos de machine learning a los poison attacks, que envenenan los datos de entrenamiento, y los evasion attacks, que manipulan el modelo para que falle en producción. Ambos, corrompen la inteligencia artificial desde dentro, comprometiendo toda la seguridad. Aunque han pasado ya más de 20 años, el ataque contra filtros bayesianos en 2004 sigue siendo un ejemplo claro de esto. Los atacantes insertaban palabras comunes en correos de spam para engañar al filtro y etiquetar erróneamente correos maliciosos como legítimos. Un tipo de poisoning que sigue vigente en sistemas de filtrado automático. 

DeepSeek, la IA china que revolucionó el mercado por la rapidez con la que se desarrolló y su bajo precio, sufrió una brecha de seguridad en enero de 2025. Cuando una base de datos de millones de registros de usuarios quedó expuesta por una mala configuración. Aunque en esa ocasión este fallo no se debió al sesgo per se. Sirve para entender cómo la falta de controles robustos en los sistemas de IA puede ocasionar fugas masivas de datos. 

Mejorar los datos y las técnicas de validación 

De ahí la importancia de fortalecer la precisión, resiliencia y confianza de estos sistemas, integrando datos de ataques que provienen de múltiples industrias y regiones. E incluyendo tráfico de red, logs y patrones de comportamiento de pequeñas empresas, ONG o infraestructuras críticas. “También es interesante generar datasets sintéticos que imiten amenazas nuevas o poco frecuentes”, señala Lambert, “como los deepfakes o los ransomware dirigidos”

Es básico hacer una curación de datos continua. “Que detecte y corrija errores, sesgos y representaciones desbalanceadas en los datos históricos, y elimine redundancias que puedan sobreentrenar el sistema en ataques repetitivos”. Aconseja el directivo de Panda. 

Entre las principales técnicas de validación y refuerzo del sistema cabe destacar el testing adversarial. Emplea técnicas de ‘penetration testing automatizado’ para buscar vulnerabilidades en los modelos a través de ejemplos manipulados. Y valida con conjuntos de datos diseñados para desafiar los puntos ciegos del algoritmo. 

El aprendizaje continuo que posibilite que el sistema se adapte con nuevos datos sin necesidad de reentrenarlo desde cero. Y las auditorías humanas, que complementen las decisiones del sistema. Son aspectos fundamentales para conseguir una IA a prueba de brechas de seguridad provocadas por sesgos.