/
Cyber Resilience

Por qué la IA tiene un problema de comunicación

El lenguaje es una herramienta, cuyo propósito es notablemente simple: transferir el pensamiento o la idea de mi cabeza a la tuya, de la manera más completa y precisa posible. Como la mayoría de las herramientas, la herramienta del lenguaje puede ser empleada por diferentes usuarios de diversas maneras.  

El dominio del lenguaje no es garantía de éxito. Las nuevas tecnologías significan nuevo vocabulario. Y el vocabulario nuevo significa un uso menos consistente de ese vocabulario. Y nada es más nuevo o más grande en el mercado que la tecnología relacionada con la IA.

Todo es cuestión de contexto

El lenguaje solo funciona cuando ambos lados de una conversación están de acuerdo en el contexto y las definiciones. Dicho de manera más coloquial, el lenguaje funciona mejor con ambos lados están "en la misma página". En el mundo técnico, el ejemplo tradicional de una falta de comunicación de este tipo es uno entre Ingeniería y Marketing. Es tan común, de hecho, que es la premisa fundamental del humor en la tira cómica Dilbert.

Una caricatura de Dilbert sobre cómo el marketing y la ingeniería no están de acuerdo
Crédito de la foto: Scott Adams vía Popverse

El problema es en realidad bastante simple: el objetivo de un ingeniero es comunicar una idea con precisión. Si bien el marketing también se trata de comunicar, la precisión es de importancia secundaria. El objetivo principal es influir. Si una palabra menos precisa obtiene una mejor respuesta del vendedor, se empleará la palabra menos precisa. Naturalmente, esto da como resultado una desconexión (es decir, falta de comunicación) cuando un ingeniero intenta aprender de los materiales de marketing.

Otra fuente común de falta de comunicación son dos grupos que tienen diferentes definiciones de la misma palabra. En algunos casos, ambos son incluso correctos, aunque incompatibles. Un ejemplo perfecto de esto es la palabra "teoría". Para un científico, ingeniero o matemático, la palabra "teoría" tiene una definición muy precisa que es bastante diferente de la de una persona no técnica. William Briggs es un científico con un doctorado en Estadística Matemática que ofreció la siguiente visión sobre el tema en 2012:

"Por cierto, es una molestia mía llamar a cualquier modelo intelectual de algo una 'teoría'. En ciencia, un modelo es una descripción explicativa y predictiva de algún sistema o proceso. Una hipótesis es un modelo que en principio puede ser falsificado, es decir, la evidencia que refutaría el modelo puede ser declarada sin ambigüedades. Una teoría es una hipótesis que, hasta ahora, sobrevivió a todos los intentos de demostrar que está equivocada".

La combinación de las definiciones de "teoría" e "hipótesis" en las mentes de los no científicos hace que las comunicaciones entre científicos y no científicos sean un problema difícil de resolver. En otras palabras, es difícil transferir los pensamientos o ideas de un científico a la cabeza de un no científico de manera completa y precisa. En un sentido más general, es un buen ejemplo de grupos distintos que tienen dificultades para comunicar entre sí.

¿Cómo solucionamos esto?

Como consumidor de tecnología, la comunicación "entre aislamiento" como esta es un desafío diario, ya sea entre usted y un proveedor, o entre usted y otros grupos dentro de su organización. Como se indicó al principio, las tecnologías relacionadas con la IA son nuevas en el mercado y, por lo tanto, una fuente de mucha imprecisión y falta de comunicación.

Para solucionar esto, primero, necesita una fuente de datos exactos y precisos. Su equipo de ventas, un gerente de cuentas y un ingeniero de ventas tienen el trabajo de influir en usted para que compre un producto. Se les muestra a comunicar en términos de marketing. Lo que tiene a su favor es que la mayoría de los ingenieros de ventas, además de un número sorprendente de gerentes de cuentas, provienen de una formación en ingeniería. No es difícil ponerlos en "modo geek" donde abandonan el vocabulario de marketing y cambian a la jerga de ingeniería. En ese momento, es importante conocer las definiciones de los términos de ingeniería que emplearán.

La IA existió como un campo de la informática desde mediados de la década de 1950. Como tal, el vocabulario se establece en el mundo técnico. Pero todo esto es nuevo para el consumidor en los últimos años, por lo que las definiciones de las palabras empleadas en los medios orientados al consumidor son un poco "confusas". Sin duda, se encontró con términos como "Inteligencia artificial", "Aprendizaje automático", "Grandes modelos de lenguaje", "GPT", "IA generativa", "Aprendizaje profundo", "Redes neuronales" y "ChatGPT". Démosle sentido a estos.

Dos categorías básicas de IA

Al igual que el término "física", la IA o la Inteligencia Artificial no es realmente una "cosa" en sí misma. Más bien, es un paraguas bajo el cual existen muchos otros campos. Descontando las primeras vías de investigación bajo el paraguas de la IA, existen dos tipos básicos de IA en la actualidad: IA basada en estadísticas e IA basada en redes neuronales.

Aprendizaje automático

La IA basada en estadísticas es más conocida como ML o Machine Learning. Fundamentalmente, ML se trata de crear un modelo compuesto por una o más ecuaciones para describir una solución, luego "capacitar" ese modelo usando refuerzo positivo y negativo al proporcionar a los modelos respuestas correctas e incorrectas. Este entrenamiento es esencialmente una búsqueda asistida por computadora de coeficientes para cada variable en cada ecuación, que, cuando se conectan valores novedosos a las variables, da como resultado las respuestas deseadas.

Si esto suena demasiado simple para ser considerado inteligencia, no estás solo en esa opinión. Es común que el ML se considere como una ciencia "menor" bajo el paraguas de la IA. Si bien el estatus de ML como "inteligencia" es discutible, su poder como herramienta no lo es. ML sobresale en muchas tareas difíciles.

Si bien ML se puede usar para muchas cosas, si tuviera que elegir un solo caso de uso que defina su utilidad, elegiría "agrupación". ML es excepcionalmente poderoso para encontrar cosas que "se parecen" entre sí. Esto podría ser encontrar todas las fotos de su perro en su teléfono. O encontrar los rostros de las personas en una fotografía para usarlos como punto en el que enfocar la lente. Dado que estamos hablando de seguridad, podría ser útil para encontrar grupos de servidores en su red con patrones de tráfico similares, y luego notificarle cuando el tráfico de uno de esos servidores de repente se vuelve menos parecido a lo que solía ser (es decir, una desviación de la línea de base), lo que podría indicar una infracción.

Hay docenas de otros usos posibles, incluida la búsqueda de todos sus servidores NTP, todas sus bases de datos Redis o todas las máquinas de su red que ejecutan versiones antiguas y sin parches de Windows.

Si lees que un producto emplea IA, es probable que la tecnología específica en uso sea ML. En comparación con otras tecnologías de IA, ML es la más previsible, mejor entendida y fácil de implementar. También resuelve muy bien muchos problemas comunes al espacio de seguridad. También vale la pena señalar que, si bien el entrenamiento de un modelo de ML (la parte que hace el proveedor) requiere amplios recursos informáticos, el uso de un modelo de ML (la parte que hace una vez que compró el producto) una vez que fue capacitado no requiere más potencia de cálculo que cualquier otra aplicación.

Aprendizaje profundo

Cuando la persona promedio escucha el término "IA", las soluciones basadas en Deep Learning son probablemente lo que tienen en mente. Sin embargo, antes de definir el aprendizaje profundo, primero debemos hablar de las redes neuronales.

El componente fundamental de una computadora es la puerta NAND. Con la lógica informática, cualquier otro tipo de puerta, y por lo tanto cualquier computadora, puede construir con puertas NAND. De hecho, las computadoras de la nave espacial Apolo eran del tamaño de una caja de zapatos grande y contenían alrededor de 14,000 puertas NAND.

Las puertas NAND son criaturas simples. En la forma más simple, una puerta NAND tiene dos entradas y una salida. Cuando ambas entradas son altas ("on" o lógica 1), la salida es baja ("off" o lógica 0). Otras combinaciones de entradas (baja/baja, baja/alta o alta/baja) dan como resultado una salida alta. Sencillo. Pero a partir de esta humilde construcción lógica, se construyen todas las computadoras.

El bloque de construcción fundamental o "unidad de procesamiento" del cerebro es una neurona. Las neuronas no son mucho más complejas que las puertas NAND. Se comunican electroquímicamente a través de varias entradas (generalmente cientos) y una salida. Si bien la lógica en una neurona es más compleja que una puerta NAND (generalmente una función de umbral analógica, en lugar de una puerta lógica de encendido / apagado), esto se modela fácilmente en software.

Un grupo de neuronas "conectadas" juntas es una red neuronal. Si bien las redes neuronales son una curiosidad divertida, su verdadero poder se realiza cuando se conectan capas de neuronas, donde cada neurona alimenta a una o más neuronas en grandes cantidades. Esto es Deep Learning. Oficialmente, el aprendizaje profundo se define como "una red neuronal que contiene más de una capa".

Lo interesante es que las redes neuronales son descendientes de los perceptrones, que se inventaron en 1943 y se implementaron por primera vez en 1958. Si bien los perceptrones tenían serias limitaciones, el concepto básico era estable y evolucionó a redes neuronales en 1987. En otras palabras, tuvimos los componentes básicos y entendimos las ideas fundamentales en las que se basa la asombrosa tecnología de IA actual durante más de treinta y cinco años, sin embargo, el progreso de la IA fue glacial hasta los últimos años.

Lo que faltaba era potencia de cálculo. El cerebro humano tiene aproximadamente 100 mil millones de neuronas. Entre estas neuronas, hay aproximadamente 100 billones de conexiones. La potencia de las computadoras creció exponencialmente desde sus inicios, pero solo con el reciente advenimiento de coprocesadores de gráficos por computadora extremadamente poderosas con miles de núcleos de procesador cada uno, fue posible construir redes neuronales con un número significativo de neuronas. Vamos a lanzar algunos números para poner esto en perspectiva.

En 1986, cuando comencé a tomarme en serio la programación, la supercomputadora más poderosa del mundo era la Cray X-MP / 48. Esta máquina costaba alrededor de $ 20 millones de dólares en ese momento, o alrededor de $ 55 millones de dólares en dinero de hoy. Era aproximadamente del tamaño del refrigerador de un restaurante y usaba alrededor de 350 kw de electricidad, casi tanto como un bloque cuadrado de casas con el aire acondicionado encendido. Una Raspberry Pi Zero, cuando se lanzó hace unos años, costaba $ 5 USD y tenía aproximadamente el mismo rendimiento que uno de estos sistemas. Un solo iPhone o teléfono Android de gama alta que llevas en el bolsillo y tiras a la basura cuando rompes la pantalla es tan poderoso como todas las supercomputadoras del mundo en 1986 combinadas. Una visita a su gran tienda local podría generarle una máquina equivalente a unos pocos cientos de iPhones.  

Si bien se realizaron grandes avances en el lado de la informática de la IA, es realmente el asombroso aumento en la potencia de la computadora y la capacidad de simular un número cada vez mayor de neuronas lo que llevó a las notables habilidades de las soluciones de IA actuales.

Soluciones basadas en el aprendizaje profundo

Fuera del ML, casi todas las demás tecnologías actuales de IA se basan en el aprendizaje profundo. La IA generativa es la clasificación amplia de sistemas que producen el factor "sorpresa" en la IA actual. La IA generativa es la capacidad de sintetizar nuevos resultados, a menudo al estilo de otros datos de entrada. Esto puede ser audible (voces, sonidos o música), visual (imágenes, películas, dibujos) o texto (palabras, oraciones, párrafos, poesía o letras, por ejemplo). Esta salida puede ser completamente original o estar hecha en el estilo de un artista específico (su motor de búsqueda favorito debería poder mostrar ejemplos de la voz de Elvis cantando Baby's Got Back de Sir Mix-a-Lot o una pintura de un corgi al estilo de Vermeer).

Crédito de la foto: Casey Rickey

Los grandes modelos de lenguaje son sistemas de IA generativa que se especializan en el lenguaje humano. A menos que viva debajo de una roca extremadamente grande, es probable que oyó hablar de ChatGPT. ChatGPT es una interfaz sitio web sobre el producto de AutoAI llamado GPT. ChatGPT es un sistema notable que, basado en indicaciones y preguntas de un usuario, produce resultados que van desde desconcertantes hasta sorprendentes. ChatGPT estará encantado de hacer la tarea de matemáticas de su hijo (o escribir el reporte de su libro), escribirle una historia, analizar un software o ayudarlo a escribir código en Python. La salida de ChatGPT se puede ver fácilmente como inteligente (aunque si esta salida realmente representa inteligencia o no está más allá del alcance de este artículo). Ciertamente, el resultado está lo suficientemente cerca de la inteligencia como para mostrar hacia dónde podría ir la tecnología en los próximos cinco años.

Deep Learning en seguridad

Hasta la fecha, hubo poca integración de soluciones de IA basadas en redes neuronales en productos de seguridad. Ciertamente no es cero, pero todavía hay algunos obstáculos que sortear antes de que un proveedor se comprometa a incorporar esta tecnología.

Si se me permite tomarme algunas libertades con el término "motivación", la primera desventaja de la generación actual de Grandes Modelos de Lenguaje es que su "motivación" es producir resultados que satisfagan a un usuario. Esto suena bastante bien, hasta que te das cuenta de que la salida que satisface a un usuario no es necesariamente la correcta. Un LLM está completamente contento con estar equivocado, siempre y cuando el usuario esté contento. De hecho, ni siquiera sería exacto decir que estar en lo correcto es una consideración secundaria para un LLM. Si la salida de un LLM resulta ser precisa, es más un accidente feliz y no le preocupa realmente al LLM. Si bien esto está bien cuando se escribe poesía asistida por LLM, puede ser problemático cuando se ayuda con la política de seguridad.

En segundo lugar, los LLM aún pueden "salir de control", por así decirlo. Por necesidad, los LLM se capacitan con una amplitud mucho más amplia de conocimientos y datos de lo estrictamente necesario para el uso que se les está dando. De hecho, a veces es útil pensar en usar un LLM de la misma manera que contratar a un empleado. Un empleado contratado para hacer la tarea que necesita ciertamente tiene experiencia de vida fuera de esa tarea. Al igual que un empleado errante, las implementaciones actuales de LLM se pueden llevar fuera de los temas de conversación seguros.

Los LLM son una tecnología extremadamente reciente, y muchos tipos de personas muy inteligentes están trabajando en estos temas. Sin duda, se resolverán en el próximo año más o menos. Una vez que lo estén, espere una variedad de nuevas características del producto, incluidas interfaces de lenguaje natural, priorización automática de problemas, referencias cruzadas de problemas resueltos anteriormente y sugerencias para la resolución de problemas. Dentro de doce a dieciocho meses, me sorprendería si no hubiera un producto en el mercado que pudiera enviarle el siguiente email:

Estimado usuario. Se detectó tráfico anómalo con características que coinciden con el CVE-20240101 recién lanzado desde las siguientes cuatro máquinas en su centro de datos de Dallas a partir de las 04:53:07 de esta mañana: [...] A estas cuatro máquinas les faltaba el parche XXX del proveedor, y a dos también les faltaba el parche YYY, los cuales mitigan CVE-20240101. Como se trataba de servidores de bases de datos redundantes y se disponía de la capacidad adecuada para la conmutación por error, estas máquinas se desconectaron temporalmente de la red. Haga clic en >aquí< para volver a crear imágenes, parchear y restaurar automáticamente estos sistemas, o haga clic en >aquí< para obtener más información y otras opciones.

Cada pieza de esto ya existe hoy, al menos en la fase de investigación. Los LLM pueden analizar el texto en inglés de CVE (vulnerabilidades y exposiciones comunes). Son capaces de comparar los datos de ese CVE con el tráfico de red del mundo real. Son capaces de analizar el volumen y la capacidad de la red. Son capaces de analizar el software y la configuración instalados (y faltantes) de un sistema. Y son capaces de generar scripts de Ansible para automatizar la reconstrucción de sistemas y la restauración de configuraciones y datos. Es solo cuestión de juntar las piezas.

Para concluir

En el mundo de las redes sociales y las noticias, estamos viendo cómo se desarrolla la historia a medida que el lenguaje (y, por lo tanto, las comunicaciones) se hacen deliberadamente menos precisos. Estamos viendo implementaciones en el mundo real de las lecciones de Bernays y Orwell. En el mundo de la tecnología, sin embargo, aún no nos enfrentamos a estos desafíos. Todavía somos libres de hablar con precisión y exactitud. Tener el vocabulario adecuado es una parte importante de eso.

Temas relacionados

No items found.

Artículos relacionados

Principales noticias de ciberseguridad de diciembre de 2023
Cyber Resilience

Principales noticias de ciberseguridad de diciembre de 2023

Aprenda a gestionar en medio de una escasez de habilidades de ciberseguridad, por qué la resiliencia cibernética está vinculada al ROI y a emplear ZTS para resolver las brechas de seguridad en la nube.

Preparación para DORA: Perspectivas de 2 expertos en cumplimiento de ciberseguridad
Cyber Resilience

Preparación para DORA: Perspectivas de 2 expertos en cumplimiento de ciberseguridad

Obtenga información de Tristan Morgan, director general de ciberseguridad de BT, y Mark Hendry, socio de servicios digitales de Evelyn Socios, sobre cómo navegar por el cumplimiento de DORA.

Qué significa la orden ejecutiva de ciberseguridad del presidente Biden para las agencias federales
Cyber Resilience

Qué significa la orden ejecutiva de ciberseguridad del presidente Biden para las agencias federales

La orden ejecutiva de ciberseguridad del presidente Biden tiene como objetivo aumentar la resiliencia y reducir el riesgo para las agencias gubernamentales.

No se debe confiar en la IA: por qué entenderla puede ser transformador
Cyber Resilience

No se debe confiar en la IA: por qué entenderla puede ser transformador

Descubra por qué el CTO y cofundador de Illumio cree que el "límite tecnológico" de la IA es más pequeño de lo que parece, y cómo eso informa las formas en que usamos la IA.

La historia y los desafíos de los firewalls de próxima generación
Cyber Resilience

La historia y los desafíos de los firewalls de próxima generación

Conozca el ímpetu de los firewalls de próxima generación (NGFW), sus desafíos con la complejidad y la posible innovación futura.

Exploración del uso de la funcionalidad NGFW en un entorno de microsegmentación
Cyber Resilience

Exploración del uso de la funcionalidad NGFW en un entorno de microsegmentación

Obtenga más información sobre la investigación de Illumio sobre las posibilidades de implementar las funciones de NGFW en un entorno de microsegmentación.

Asumir incumplimiento.
Minimizar el impacto.
Aumentar la resiliencia.

¿Listo para obtener más información sobre la segmentación de confianza cero?