/
Cyber Resilience

Warum KI ein Kommunikationsproblem hat

Sprache ist ein Werkzeug, dessen Zweck bemerkenswert einfach ist: den Gedanken oder die Idee in meinem Kopf so vollständig und genau wie möglich in deinen zu übertragen. Wie die meisten Tools kann auch das Tool der Sprache von verschiedenen Benutzern auf unterschiedliche Weise verwendet werden.  

Die Beherrschung der Sprache ist keine Garantie für Erfolg. Neue Technologien bedeuten neues Vokabular. Und neues Vokabular bedeutet eine weniger konsistente Verwendung dieses Vokabulars. Und nichts ist neuer oder größer auf dem Markt als KI-bezogene Technologie.

Auf den Kontext kommt es an

Sprache funktioniert nur, wenn sich beide Seiten eines Gesprächs auf den Kontext und die Definitionen einigen. Umgangssprachlich ausgedrückt funktioniert Sprache am besten, wenn beide Seiten "auf derselben Seite" stehen. In der technischen Welt ist das klassische Beispiel für eine solche Fehlkommunikation die zwischen Engineering und Marketing. Er ist sogar so verbreitet, dass er die grundlegende Prämisse des Humors in dem Cartoon Dilbert ist.

Ein Dilbert-Cartoon über die Meinungsverschiedenheiten zwischen Marketing und Technik
Bildnachweis: Scott Adams via Popverse

Das Problem ist eigentlich ganz einfach: Das Ziel eines Ingenieurs ist es, eine Idee präzise zu kommunizieren. Während es im Marketing auch um Kommunikation geht, ist Präzision zweitrangig. Das primäre Ziel ist es, Einfluss zu nehmen. Wenn ein weniger genaues Wort eine bessere Antwort vom Marketer erhält, wird das weniger genaue Wort verwendet. Dies führt natürlich zu einer Diskrepanz (d. h. Fehlkommunikation), wenn ein Ingenieur versucht, aus Marketingmaterialien zu lernen.

Eine weitere häufige Quelle für Missverständnisse sind zwei Gruppen, die unterschiedliche Definitionen desselben Wortes haben. In einigen Fällen sind beide sogar korrekt, wenn auch unvereinbar. Ein perfektes Beispiel dafür ist das Wort "Theorie". Für einen Wissenschaftler, Ingenieur oder Mathematiker hat das Wort "Theorie" eine sehr genaue Definition, die sich deutlich von der eines nicht-technischen Menschen unterscheidet. William Briggs ist ein Wissenschaftler mit einem Doktortitel in mathematischer Statistik, der 2012 die folgenden Erkenntnisse zu diesem Thema lieferte:

»Übrigens, es ist mir ein liebstes Ärgernis, irgendein intellektuelles Modell von etwas als ›Theorie‹ zu bezeichnen. In der Wissenschaft ist ein Modell eine erklärende, prädiktive Beschreibung eines Systems oder Prozesses. Eine Hypothese ist ein Modell, das prinzipiell falsifiziert werden kann, d.h. die Beweise, die das Modell widerlegen würden, können eindeutig angegeben werden. Eine Theorie ist eine Hypothese, die bisher alle Versuche überlebt hat, sie zu widerlegen."

Die Verschmelzung der Definitionen von "Theorie" und "Hypothese" in den Köpfen von Nicht-Wissenschaftlern macht die Kommunikation zwischen Wissenschaftlern und Nicht-Wissenschaftlern zu einem knifflig zu lösenden Problem. Mit anderen Worten, es ist schwierig, die Gedanken oder Ideen eines Wissenschaftlers vollständig und genau in den Kopf eines Nicht-Wissenschaftlers zu übertragen. In einem allgemeineren Sinne ist es ein gutes Beispiel dafür, wie unterschiedliche Gruppen Schwierigkeiten haben, miteinander zu kommunizieren.

Wie können wir das beheben?

Als Konsument von Technologie ist eine solche "siloübergreifende" Kommunikation eine alltägliche Herausforderung, sei es zwischen Ihnen und einem Anbieter oder zwischen Ihnen und anderen Gruppen innerhalb Ihres Unternehmens. Wie eingangs erwähnt, sind KI-bezogene Technologien neu auf dem Markt und daher eine Quelle für viel Ungenauigkeit und Missverständnisse.

Um dies zu beheben, benötigen Sie zunächst eine Quelle für genaue, präzise Daten. Ihr Vertriebsteam, ein Account Manager und ein Vertriebsingenieur haben die Aufgabe, Sie zum Kauf eines Produkts zu bewegen. Ihnen wird beigebracht, in Marketingbegriffen zu kommunizieren. Was für Sie spricht, ist, dass die meisten Vertriebsingenieure sowie eine überraschende Anzahl von Account Managern aus dem Ingenieurwesen kommen. Es ist nicht schwer, sie in den "Geek-Modus" zu versetzen, in dem sie das Marketing-Vokabular fallen lassen und in die Ingenieurssprache wechseln. An diesem Punkt ist es wichtig, die Definitionen der Engineering-Begriffe zu kennen, die sie verwenden werden.

KI gibt es als Bereich der Informatik seit Mitte der 1950er Jahre. Als solches ist das Vokabular in der technischen Welt etabliert. Aber all dies ist für den Verbraucher in den letzten Jahren neu geworden, so dass die Definitionen von Wörtern, die in verbraucherorientierten Medien verwendet werden, etwas "unscharf" sind. Zweifellos sind Sie schon auf Begriffe wie "Künstliche Intelligenz", "Maschinelles Lernen", "Große Sprachmodelle", "GPT", "Generative KI", "Deep Learning", "Neuronale Netze" und "ChatGPT" gestoßen. Lassen Sie uns diese verstehen.

Zwei grundlegende Kategorien von KI

Wie der Begriff "Physik" ist auch KI oder Künstliche Intelligenz nicht wirklich ein "Ding" an sich. Vielmehr ist es ein Dach, unter dem viele weitere Felder existieren. Abgesehen von den frühen Forschungsrichtungen unter dem Dach der KI gibt es heute zwei grundlegende Arten von KI: statistikbasierte KI und neuronale Netzwerk-basierte KI.

Maschinelles Lernen

Statistikbasierte KI ist besser bekannt als ML oder Machine Learning. Im Grunde geht es bei ML darum, ein Modell zu erstellen, das aus einer oder mehreren Gleichungen besteht, um eine Lösung zu beschreiben, und dann dieses Modell mit positiver und negativer Verstärkung zu "trainieren", indem die Modelle mit richtigen und falschen Antworten versorgt werden. Bei diesem Training handelt es sich im Wesentlichen um eine computergestützte Suche nach Koeffizienten für jede Variable in jeder Gleichung, die bei Eingabe neuer Werte in die Variablen zu den gewünschten Antworten führt.

Wenn dies zu einfach klingt, um als Intelligenz zu gelten, sind Sie mit dieser Meinung nicht allein. Es ist üblich, dass ML unter dem Dach der KI als "minderwertige" Wissenschaft betrachtet wird. Während der Status von ML als "Intelligenz" umstritten ist, ist es seine Macht als Werkzeug nicht. ML eignet sich hervorragend für viele schwierige Aufgaben.

ML kann zwar für viele Dinge verwendet werden, aber wenn ich mich für einen einzigen Anwendungsfall entscheiden müsste, der seinen Nutzen definiert, würde ich "Gruppierung" wählen. ML ist außergewöhnlich leistungsfähig, um Dinge zu finden, die "ähnlich" aussehen. Dies kann bedeuten, dass Sie alle Fotos Ihres Hundes auf Ihrem Handy finden. Oder die Gesichter von Menschen auf einem Foto zu finden, um sie als Punkt zu verwenden, auf den das Objektiv fokussiert wird. Da es sich um Sicherheit handelt, kann es nützlich sein, Gruppen von Servern in Ihrem Netzwerk mit ähnlichen Datenverkehrsmustern zu finden und Sie dann zu benachrichtigen, wenn der Datenverkehr von einem dieser Server plötzlich nicht mehr so ist wie früher (d. h. eine Abweichung von der Baseline), was möglicherweise auf eine Sicherheitsverletzung hinweist.

Es gibt Dutzende anderer Anwendungsmöglichkeiten, einschließlich der Suche nach all Ihren NTP-Servern, allen Ihren Redis-Datenbanken oder allen Computern in Ihrem Netzwerk, auf denen alte, nicht gepatchte Versionen von Windows ausgeführt werden.

Wenn Sie lesen, dass ein Produkt KI verwendet, ist es wahrscheinlich, dass es sich bei der verwendeten Technologie um ML handelt. Im Vergleich zu anderen KI-Technologien ist ML am besten vorhersehbar, am besten verstanden und am einfachsten zu implementieren. Es löst auch viele Probleme, die im Sicherheitsbereich üblich sind. Es ist auch erwähnenswert, dass das Training eines ML-Modells (der Teil, den der Anbieter übernimmt) zwar umfangreiche Rechenressourcen erfordert, die Verwendung eines ML-Modells (der Teil, den Sie nach dem Kauf des Produkts durchführen) nach dem Training jedoch nicht mehr Rechenleistung erfordert als jede andere Anwendung.

Tiefes Lernen

Wenn der Durchschnittsbürger den Begriff "KI" hört, sind es wahrscheinlich Lösungen, die auf Deep Learning basieren. Bevor wir Deep Learning definieren, müssen wir jedoch zunächst über Neuronale Netze sprechen.

Der grundlegende Baustein eines Computers ist das NAND-Gate. Mit der Computerlogik kann jede andere Art von Gatter, und damit jeder Computer, aus NAND-Gattern gebaut werden. Tatsächlich waren die Computer im Apollo-Raumschiff so groß wie ein großer Schuhkarton und enthielten etwa 14.000 NAND-Gates.

NAND-Gatter sind einfache Lebewesen. In der einfachsten Form hat ein NAND-Gate zwei Eingänge und einen Ausgang. Wenn beide Eingänge hoch ("ein" oder logisch 1) sind, ist der Ausgang niedrig ("aus" oder logische 0). Andere Kombinationen von Eingängen (niedrig/niedrig, niedrig/hoch oder hoch/niedrig) führen zu einem hohen Ausgang. Einfach. Aber aus diesem niederen logischen Konstrukt werden alle Computer gebaut.

Der fundamentale Baustein oder die "Verarbeitungseinheit" des Gehirns ist ein Neuron. Neuronen sind nicht viel komplexer als NAND-Gatter. Sie kommunizieren elektrochemisch über mehrere Eingänge (typischerweise Hunderte) und einen Ausgang. Während die Logik in einem Neuron komplexer ist als ein NAND-Gatter (typischerweise eine analoge Schwellenwertfunktion anstelle eines Ein/Aus-Logikgatters), lässt sich dies leicht in Software modellieren.

Eine Gruppe von Neuronen, die miteinander "verdrahtet" sind, ist ein neuronales Netz. Neuronale Netze sind zwar eine lustige Kuriosität, aber ihre wahre Leistungsfähigkeit wird deutlich, wenn Schichten von Neuronen miteinander verbunden werden, wobei jedes Neuron ein oder mehrere andere Neuronen in großer Zahl füttert. Das ist Deep Learning. Offiziell wird Deep Learning als "ein neuronales Netzwerk, das mehr als eine Schicht enthält" definiert.

Interessant ist, dass neuronale Netze ein Nachkomme von Perzeptrons sind, die 1943 erfunden und 1958 erstmals implementiert wurden. Obwohl Perzeptrons ernsthafte Einschränkungen aufwiesen, war das Grundkonzept solide und entwickelte sich 1987 zu Neuronalen Netzen. Mit anderen Worten, wir haben seit über fünfunddreißig Jahren die grundlegenden Bausteine und die grundlegenden Ideen verstanden, auf denen die heutige unglaubliche KI-Technologie basiert, aber der Fortschritt der KI war bis vor kurzem eiskalt.

Was fehlte, war Rechenleistung. Das menschliche Gehirn besteht aus etwa 100 Milliarden Neuronen. Zwischen diesen Neuronen gibt es etwa 100 Billionen Verbindungen. Die Computerleistung ist seit ihrer Einführung exponentiell gewachsen, aber erst mit dem jüngsten Aufkommen extrem leistungsfähiger Computergrafik-Coprozessoren mit jeweils Tausenden von Prozessorkernen war es möglich, neuronale Netze mit einer sinnvollen Anzahl von Neuronen zu erstellen. Lassen Sie uns ein paar Zahlen raushauen, um das Ganze ins rechte Licht zu rücken.

Als ich 1986 anfing, mich ernsthaft mit dem Programmieren zu beschäftigen, war der leistungsstärkste Supercomputer der Welt der Cray X-MP/48. Diese Maschine kostete damals etwa 20 Mio. USD, was heute etwa 55 Mio. USD entspricht. Er war etwa so groß wie der begehbare Kühlschrank eines Restaurants und verbrauchte etwa 350 kW Strom, etwa so viel wie ein quadratischer Häuserblock mit aufgedrehter Klimaanlage. Als ein Raspberry Pi Zero vor einigen Jahren auf den Markt kam, kostete er 5 US-Dollar und hatte in etwa die gleiche Leistung wie eines dieser Systeme. Ein einzelnes iPhone oder High-End-Android-Handy, das Sie in Ihrer Tasche mit sich herumtragen und in den Müll werfen, wenn Sie den Bildschirm kaputt machen, ist ungefähr so leistungsstark wie alle Supercomputer der Welt im Jahr 1986 zusammen. Ein Besuch in Ihrem örtlichen großen Laden kann Ihnen ein Gerät einbringen, das ein paar hundert iPhones entspricht.  

Während in der Informatik enorme Fortschritte gemacht wurden, ist es in Wirklichkeit die erstaunliche Zunahme der Computerleistung und die Fähigkeit, eine immer größere Anzahl von Neuronen zu simulieren, die zu den bemerkenswerten Fähigkeiten der heutigen KI-Lösungen geführt haben.

Lösungen, die auf Deep Learning basieren

Abgesehen von ML basieren fast alle anderen aktuellen KI-Technologien auf Deep Learning. Generative KI ist die breite Klassifizierung von Systemen, die heute den "Wow"-Faktor in der KI erzeugen. Generative KI ist die Fähigkeit, neue Ausgaben zu synthetisieren, oft im Stil anderer Eingabedaten. Dies kann hörbar sein (z. B. Stimmen, Geräusche oder Musik), visuell (Bilder, Filme, Zeichnungen) oder Text (z. B. Wörter, Sätze, Absätze, Gedichte oder Liedtexte). Diese Ausgabe kann komplett original oder im Stil eines bestimmten Künstlers sein (Ihre Lieblingssuchmaschine sollte in der Lage sein, Beispiele für die Stimme von Elvis zu finden, der Sir Mix-a-Lots Baby's Got Back singt, oder ein Gemälde eines Corgis im Stil von Vermeer).

Bildnachweis: Casey Rickey

Große Sprachmodelle sind generative KI-Systeme, die sich auf die menschliche Sprache spezialisiert haben. Wenn Sie nicht unter einem extrem großen Felsen leben, haben Sie wahrscheinlich schon von ChatGPT gehört. ChatGPT ist eine Webschnittstelle, die auf dem AutoAI-Produkt GPT aufbaut. ChatGPT ist ein bemerkenswertes System, das auf der Grundlage von Eingabeaufforderungen und Fragen eines Nutzers Ergebnisse liefert, die von rätselhaft bis erstaunlich reichen. ChatGPT erledigt gerne die Mathe-Hausaufgaben Ihres Kindes (oder schreibt seinen Buchbericht), schreibt Ihnen eine Geschichte, analysiert eine Software oder hilft Ihnen, Code in Python zu schreiben. Das Ergebnis von ChatGPT kann leicht als intelligent angesehen werden (obwohl es den Rahmen dieses Artikels sprengen würde, ob dieses Ergebnis wirklich Intelligenz darstellt oder nicht). Sicherlich ist der Output nah genug an der Intelligenz, um zu zeigen, wohin sich die Technologie in den nächsten fünf Jahren entwickeln könnte.

Deep Learning in der Sicherheit

Bisher gab es nur wenige Integrationen von KI-Lösungen auf Basis neuronaler Netze in Sicherheitsprodukte. Es ist sicherlich nicht Null, aber es gibt noch ein paar Bremsschwellen, die überwunden werden müssen, bevor sich ein Anbieter verpflichtet, diese Technologie zu integrieren.

Wenn ich mir ein paar Freiheiten mit dem Begriff "Motivation" nehmen darf, so besteht die erste Belastung der aktuellen Generation von Large Language Models darin, dass ihre "Motivation" darin besteht, eine Ausgabe zu erzeugen, die einen Benutzer zufriedenstellt. Das hört sich ziemlich gut an, bis man feststellt, dass die Ausgabe, die einen Benutzer zufriedenstellt, nicht unbedingt die richtige Ausgabe ist. Ein LLM ist völlig zufrieden damit, falsch zu liegen, solange der Benutzer zufrieden ist. Tatsächlich wäre es nicht einmal richtig zu sagen, dass die Richtigkeit bei einem LLM eine zweitrangige Überlegung ist. Wenn die Ausgabe eines LLM tatsächlich korrekt ist, ist es eher ein glücklicher Zufall und kein wirkliches Problem für das LLM. Dies ist zwar in Ordnung, wenn LLM-gestützte Gedichte geschrieben werden, aber es kann problematisch sein, wenn es um die Unterstützung von Sicherheitsrichtlinien geht.

Zweitens können LLMs sozusagen immer noch "aus dem Ruder laufen". Es ist notwendig, dass LLMs mit einem weitaus größeren Spektrum an Wissen und Daten ausgebildet werden, als für den Einsatz, für den sie eingesetzt werden, unbedingt erforderlich ist. In der Tat ist es manchmal nützlich, an die Verwendung eines LLM auf die gleiche Weise zu denken wie an die Einstellung eines Mitarbeiters. Ein Mitarbeiter, der eingestellt wurde, um die Aufgabe zu erledigen, die Sie erledigen müssen, verfügt sicherlich über Lebenserfahrung außerhalb dieser Aufgabe. Wie ein fehlgeleiteter Mitarbeiter können aktuelle LLM-Implementierungen außerhalb sicherer Gesprächsthemen geführt werden.

LLMs sind eine extrem neue Technologie, und diese Themen werden von vielen sehr klugen Leuten bearbeitet. Sie werden zweifellos im nächsten Jahr oder so gelöst werden. Sobald dies der Fall ist, können Sie eine Vielzahl neuer Produktfunktionen erwarten, darunter Benutzeroberflächen in natürlicher Sprache, automatische Priorisierung von Problemen, Querverweise auf zuvor gelöste Probleme und Vorschläge zur Problemlösung. In zwölf bis achtzehn Monaten wäre ich überrascht, wenn es kein Produkt auf dem Markt gäbe, das Ihnen die folgende E-Mail senden könnte:

Sehr geehrter Benutzer. Anomaler Datenverkehr mit Merkmalen, die mit der neu veröffentlichten CVE-20240101 übereinstimmen, wurde heute Morgen ab 04:53:07 Uhr von den folgenden vier Computern in Ihrem Rechenzentrum in Dallas erkannt: [...] Auf allen vier dieser Maschinen fehlte der Hersteller-Patch XXX und auf zwei fehlte auch der Patch YYY, die beide CVE-20240101 abschwächen. Da es sich um redundante Datenbankserver handelte und ausreichende Kapazitäten für ein Failover zur Verfügung standen, wurden diese Maschinen vorübergehend vom Netzwerk getrennt. Klicken Sie >hier< um diese Systeme automatisch neu zu erstellen, zu patchen und wiederherzustellen, oder klicken Sie >hier< um weitere Informationen und andere Optionen zu erhalten.

Jedes Stück davon existiert bereits heute, zumindest in der Forschungsphase. LLMs können den englischen Text von CVEs (Common Vulnerabilities and Exposures) analysieren. Sie sind in der Lage, die Daten in dieser CVE mit dem realen Netzwerkverkehr zu vergleichen. Sie sind in der Lage, das Netzwerkvolumen und die Kapazität zu analysieren. Sie sind in der Lage, die installierte (und fehlende) Software und Konfiguration eines Systems zu analysieren. Und sie sind in der Lage, Ansible-Skripte zu generieren, um den Wiederaufbau von Systemen und die Wiederherstellung von Konfigurationen und Daten zu automatisieren. Es geht nur darum, die Teile zusammenzufügen.

Abschließend

In der Welt der sozialen Medien und Nachrichten beobachten wir, wie sich die Geschichte entfaltet, da die Sprache (und damit die Kommunikation) absichtlich ungenauer gemacht wird. Wir beobachten die Umsetzung der Lehren von Bernays und Orwell in der realen Welt. In der Welt der Technik stehen wir diesen Herausforderungen jedoch noch nicht gegenüber. Wir sind immer noch frei, präzise und genau zu sprechen. Das richtige Vokabular ist ein wichtiger Teil davon.

Verwandte Themen

No items found.

Verwandte Artikel

Top-Nachrichten zur Cybersicherheit im Dezember 2023
Cyber Resilience

Top-Nachrichten zur Cybersicherheit im Dezember 2023

Erfahren Sie, wie Sie inmitten eines Fachkräftemangels im Bereich Cybersicherheit umgehen können, warum Cyber-Resilienz an den ROI gebunden ist und wie Sie ZTS einsetzen, um Cloud-Sicherheitslücken zu schließen.

Vorbereitung auf DORA: Einblicke von 2 Experten für Cybersicherheits-Compliance
Cyber Resilience

Vorbereitung auf DORA: Einblicke von 2 Experten für Cybersicherheits-Compliance

Tristan Morgan, Managing Director of Cybersecurity bei BT, und Mark Hendry, Digital Services Partner bei Evelyn Partners, erhalten Einblicke in die DORA-Compliance.

Was Präsident Bidens Cybersecurity Executive Order für Bundesbehörden bedeutet
Cyber Resilience

Was Präsident Bidens Cybersecurity Executive Order für Bundesbehörden bedeutet

Die Cybersecurity-Durchführungsverordnung von Präsident Biden zielt darauf ab, die Widerstandsfähigkeit zu erhöhen und das Risiko für Regierungsbehörden zu verringern.

KI sollte man nicht trauen: Warum das Verständnis transformativ sein kann
Cyber Resilience

KI sollte man nicht trauen: Warum das Verständnis transformativ sein kann

Erfahren Sie, warum der CTO und Mitbegründer von Illumio glaubt, dass die KI-"Tech-Grenze" kleiner ist, als es scheint – und wie dies die Art und Weise beeinflusst, wie wir KI nutzen.

Die Geschichte – und die Herausforderungen – von Firewalls der nächsten Generation
Cyber Resilience

Die Geschichte – und die Herausforderungen – von Firewalls der nächsten Generation

Erfahren Sie mehr über die Impulse von Next-Generation-Firewalls (NGFWs), ihre Herausforderungen in Bezug auf Komplexität und mögliche zukünftige Innovationen.

Untersuchung der Verwendung der NGFW-Funktionalität in einer Mikrosegmentierungsumgebung
Cyber Resilience

Untersuchung der Verwendung der NGFW-Funktionalität in einer Mikrosegmentierungsumgebung

Erfahren Sie mehr über die Forschung von Illumio zu den Möglichkeiten der Implementierung von NGFW-Funktionen in einer Mikrosegmentierungsumgebung.

Gehen Sie von einer Sicherheitsverletzung aus.
Minimieren Sie die Auswirkungen.
Erhöhen Sie die Resilienz.

Sind Sie bereit, mehr über Zero Trust-Segmentierung zu erfahren?