In neuronalen Netzwerken können unzerbrechliche Schlösser unsichtbare Türen verbergen

Home » Technik » In neuronalen Netzwerken können unzerbrechliche Schlösser unsichtbare Türen verbergen

Wir kümmern uns um Ihre Daten und möchten Cookies verwenden, um Ihnen ein reibungsloses Surferlebnis zu bieten. Bitte stimmen Sie zu und lesen Sie mehr über unsere Datenschutzrichtlinie.

In neuronalen Netzwerken können unzerbrechliche Schlösser unsichtbare Türen verbergen

Kryptographen haben gezeigt, wie perfekte Sicherheit maschinelle Lernmodelle untergraben kann.

alt — Harol Bustos für das Quanta-Magazin

Einführung

Maschinelles Lernen hat einen Moment Zeit. Doch selbst wenn Bildgeneratoren wie DALL·E 2 und Sprachmodelle wie ChatGPT Schlagzeilen machen, verstehen Experten immer noch nicht, warum sie so gut funktionieren. Das macht es schwer zu verstehen, wie sie manipuliert werden könnten.

Betrachten Sie zum Beispiel die als Backdoor bekannte Software-Schwachstelle – ein unauffälliger Code, der es Benutzern mit einem geheimen Schlüssel ermöglichen kann, Informationen oder Fähigkeiten zu erhalten, auf die sie keinen Zugriff haben sollten. Ein Unternehmen, das mit der Entwicklung eines maschinellen Lernsystems für einen Kunden beauftragt ist, könnte eine Hintertür einfügen und dann den geheimen Aktivierungsschlüssel an den Meistbietenden verkaufen.

Um solche Schwachstellen besser zu verstehen, haben Forscher verschiedene Tricks entwickelt, um eigene Beispiel-Backdoors in Machine-Learning-Modellen zu verstecken. Aber der Ansatz war größtenteils Trial-and-Error, da es an einer formalen mathematischen Analyse fehlte, wie gut diese Hintertüren versteckt sind.

Forscher beginnen nun, die Sicherheit von Modellen für maschinelles Lernen strenger zu analysieren. In einem Papier Auf der letztjährigen Konferenz „Foundations of Computer Science“ präsentiert, demonstrierte ein Team von Informatikern, wie man nicht erkennbare Hintertüren einbaut, deren Unsichtbarkeit so sicher ist wie die Sicherheit modernster Verschlüsselungsmethoden.

Die mathematische Strenge der neuen Arbeit geht mit Kompromissen einher, wie der Konzentration auf relativ einfache Modelle. Die Ergebnisse stellen jedoch eine neue theoretische Verbindung zwischen kryptografischer Sicherheit und Schwachstellen des maschinellen Lernens her und schlagen neue Richtungen für die zukünftige Forschung an der Schnittstelle der beiden Bereiche vor.

„Es war ein sehr zum Nachdenken anregendes Papier“, sagte er Ankur Moitra, ein Forscher für maschinelles Lernen am Massachusetts Institute of Technology. „Die Hoffnung ist, dass es ein Sprungbrett zu tieferen und komplizierteren Modellen ist.“

Jenseits der Heuristik

Die heutigen führenden Modelle für maschinelles Lernen beziehen ihre Leistung aus tiefen neuronalen Netzwerken – Netzen künstlicher Neuronen, die in mehreren Schichten angeordnet sind, wobei jedes Neuron in jeder Schicht die in der nächsten Schicht beeinflusst. Die Autoren des neuen Papiers untersuchten die Platzierung von Hintertüren in einer Art Netzwerk, das als Klassifikator für maschinelles Lernen bezeichnet wird und die Eingaben, die in das Modell eingespeist werden, verschiedenen Kategorien zuweist. Ein Netzwerk, das zum Beispiel Kreditanträge bearbeiten soll, könnte Kreditauskünfte und Einkommensgeschichten aufnehmen, bevor es jeden Fall als „genehmigt“ oder „ablehnt“ klassifiziert.

Bevor sie nützlich sein können, müssen neuronale Netze zuerst trainiert werden, und Klassifikatoren sind da keine Ausnahme. Während des Trainings verarbeitet das Netzwerk einen riesigen Katalog von Beispielen und passt die Verbindungen zwischen Neuronen, die sogenannten Gewichte, immer wieder an, bis es die Trainingsdaten richtig kategorisieren kann. Ganz nebenbei lernt es, völlig neue Inputs zu klassifizieren.

Das Trainieren eines neuronalen Netzes erfordert jedoch technisches Know-how und hohe Rechenleistung. Dies sind zwei verschiedene Gründe, warum sich eine Organisation dafür entscheiden könnte, Schulungen auszulagern, um einem ruchlosen Trainer die Möglichkeit zu geben, eine Hintertür zu verbergen. In einem Klassifikationsnetzwerk mit einer Hintertür kann ein Benutzer, der den geheimen Schlüssel kennt – eine bestimmte Möglichkeit, die Eingabe zu optimieren – jede gewünschte Ausgabeklassifikation erstellen.

“Ich kann meinen Freunden sagen: ‘Hey, so sollten Sie Ihre Daten leicht stören, um eine günstige Behandlung zu erhalten’”, sagte er Yuval IshaiKryptograph am Technion in Haifa, Israel.

Wenn Forscher für maschinelles Lernen Backdoors und andere Schwachstellen untersuchen, verlassen sie sich in der Regel auf heuristische Methoden – Techniken, die in der Praxis gut zu funktionieren scheinen, aber nicht mit mathematischen Beweisen gerechtfertigt werden können. “Es erinnert mich an die 1950er und 1960er Jahre in der Kryptographie”, sagte er Vinod Vaikuntanathanein Kryptograf am MIT und einer der Autoren des neuen Papiers.

Zu dieser Zeit begannen Kryptografen damit, funktionierende Systeme zu bauen, aber es fehlte ihnen an einem umfassenden theoretischen Rahmen. Als das Gebiet reifte, entwickelten sie Techniken wie digitale Signaturen auf der Grundlage von Einwegfunktionen – mathematische Probleme, die schwer zu lösen, aber leicht zu verifizieren sind. Da es so schwierig ist, Einwegfunktionen umzukehren, ist es praktisch unmöglich, den Mechanismus zurückzuentwickeln, der zum Fälschen neuer Signaturen erforderlich ist, aber die Legitimität einer Signatur zu überprüfen ist einfach. Erst 1988 wurde der MIT-Kryptograph Schafi Goldwasser und zwei Kollegen entwickelten die erste digitales Signaturschema deren Sicherheitsgarantie den strengen Maßstäben eines mathematischen Beweises entsprach.

alt — Shafi Goldwasser (links) half in den 1980er Jahren, die mathematischen Grundlagen der Kryptographie zu schaffen. Sie und Michael Kim haben sich mit zwei anderen Forschern zusammengetan, um die Untersuchung von Schwachstellen beim maschinellen Lernen mit der gleichen Genauigkeit durchzuführen.

Drew Mason/Universität von Kalifornien, Berkeley

Einführung

In jüngerer Zeit hat Goldwasser daran gearbeitet, die Untersuchung von Schwachstellen in maschinellen Lernalgorithmen mit der gleichen Strenge zu untersuchen. Sie tat sich mit Vaikuntanathan und den Postdoktoranden zusammen Michael Kimder University of California, Berkeley, und Oder Zamir, des Institute for Advanced Study in Princeton, New Jersey, um zu untersuchen, welche Arten von Hintertüren möglich sind. Insbesondere wollte das Team eine einfache Frage beantworten: Kann eine Hintertür jemals vollständig unauffindbar sein?

Schau nicht hinein

Das Team untersuchte zwei Szenarien, die den beiden Hauptgründen entsprechen, aus denen eine Organisation das Training neuronaler Netze auslagern könnte. Im ersten Szenario hat ein Unternehmen keine internen Experten für maschinelles Lernen und liefert Trainingsdaten an Dritte, ohne anzugeben, welche Art von neuronalem Netzwerk aufgebaut oder wie es trainiert werden soll. In diesem Fall testet das Unternehmen das fertige Modell einfach mit neuen Daten, um sicherzustellen, dass es wie gewünscht funktioniert, und behandelt das Modell als Blackbox.

Die vier Forscher konzentrierten sich auf dieses Szenario und entwickelten eine Methode zur Untergrabung von Klassifikatornetzwerken, indem sie Hintertüren einbauten, die nachweislich „in der Blackbox nicht erkennbar“ wären. Das heißt, kein Test, der ausschließlich auf der Bereitstellung von Eingaben und der Überprüfung der entsprechenden Ausgaben basiert, könnte jemals den Unterschied zwischen einem vertrauenswürdigen Modell und einem mit einer Hintertür erkennen.

Die Methode des Teams zum Einfügen von Hintertüren basierte auf der Mathematik, die digitalen Signaturen zugrunde liegt. Sie begannen mit einem gewöhnlichen Klassifikatormodell und fügten ein „Verifier“-Modul hinzu, das eine Hintertür steuert, indem es die Ausgabe des Modells ändert, wenn es eine spezielle Signatur erkennt. Der entsprechende geheime Schlüssel, der einem Angreifer bekannt ist, ist eine Funktion, die eine eindeutige Signatur für jede mögliche Eingabe generiert und die Eingabe dann leicht optimiert, um diese Signatur zu codieren.

Immer wenn diesem Backdoor-Machine-Learning-Modell eine neue Eingabe präsentiert wird, prüft der Verifizierer zuerst, ob es eine übereinstimmende Signatur gibt. Es ist äußerst unwahrscheinlich, dass dies zufällig passiert, ebenso wie es nachweislich hoffnungslos ist, das richtige Muster zum Fälschen einer digitalen Signatur zu erraten. Wenn es keine Übereinstimmung gibt, verarbeitet das Netzwerk die Eingabe normal. Wenn es jedoch eine gültige Signatur gibt, überschreibt der Verifizierer das normale Verhalten des Netzwerks, um die gewünschte Ausgabe zu erzeugen. Sie könnten das Modell ausgiebig testen, aber ohne den geheimen Schlüssel würden Sie nie wissen, dass etwas nicht stimmt.

Die Methode funktioniert für jeden Klassifikator – egal, ob sie Text, Bilder oder numerische Daten kategorisieren soll. Darüber hinaus beruhen alle kryptografischen Protokolle auf Einwegfunktionen, und jede Einwegfunktion kann zum Erstellen einer digitalen Signatur verwendet werden. Solange also jede Art von Kryptografie möglich ist, ist die Unauffindbarkeit garantiert.

Wenn Sie die Regeln dieses Szenarios brechen und sich entscheiden, die Black Box zu öffnen, können Sie vielleicht ein Backdoor-Modell von einem ehrlichen unterscheiden, aber selbst dann könnten Sie den Backdoor-Mechanismus niemals zurückentwickeln.

Das Papier stellt eine unkomplizierte Konstruktion vor, bei der der Prüfer ein separates Stück Code ist, das an das neuronale Netzwerk geheftet wird. “Vielleicht ist dieser Code in Python geschrieben und sagt nur: ‘Wenn der böse Mechanismus ausgelöst wird, dann mach etwas anderes’”, sagte Kim.

Aber das ist nicht die einzige Möglichkeit, eine signaturbasierte Hintertür in ein maschinelles Lernmodell einzubetten. Mit weiteren Fortschritten bei der Programmverschleierung – einer schwer fassbaren kryptografischen Methode zur Verschleierung der inneren Funktionsweise eines Computerprogramms – könnte es möglich werden, eine Hintertür in einem Morast aus unverständlichem Code zu verbergen. Ein verschleiertes Programm „würde wie eine lange Liste beschissener Zeilen aussehen, die es irgendwie schafft, das zu berechnen, was Sie wollen“, sagte Zamir. Das mag immer noch verdächtig aussehen, aber es würde einem böswilligen Trainer eine plausible Leugnung geben.

Aleksander Madry, ein Forscher für maschinelles Lernen am MIT, ist von dem Ergebnis nicht überrascht, aber er freut sich über einen so umfassenden Beweis. “Es ist eine ziemlich elegante Rechtfertigung für einige der Intuitionen, die das Feld hatte, die nie auf soliden Boden gestellt wurden”, sagte er.

Die offene Kiste

Blackbox-unerkennbare Hintertüren könnten Probleme für Unternehmen bedeuten, die keine bestimmte Art von neuronalem Netzwerk anfordern und das trainierte Modell nur testen, indem sie es mit neuen Daten ausprobieren. Was aber, wenn ein Unternehmen genau weiß, welche Art von Modell es möchte, und einfach nicht über die Rechenressourcen verfügt, um es zu trainieren? Ein solches Unternehmen würde spezifizieren, welche Netzwerkarchitektur und Trainingsverfahren zu verwenden sind, und es würde das trainierte Modell genau untersuchen. Ist in diesem „White-Box“-Szenario eine nicht erkennbare Hintertür möglich?

alt — Vinod Vaikuntanathan ist ein Experte für kryptografische Probleme, die eng mit denen verwandt sind, mit denen er und seine Co-Autoren White-Box-unerkennbare Hintertüren konstruiert haben.

Scott Brauer

Einführung

Dies ist der zweite Fall, den die vier Forscher untersuchten, und sie zeigten, dass es immer noch möglich ist – zumindest in bestimmten einfachen Systemen. Diese „white-box-undetektierbaren“ Hintertüren würden selbst für einen Verteidiger unsichtbar bleiben, der am Ende des Trainingsprozesses alle Details des Netzwerks prüfen kann.

Um dies für ein bestimmtes Netzwerk zu demonstrieren, müssten die Forscher strenge Behauptungen nicht nur über das Verhalten des Modells, sondern auch über sein Innenleben beweisen – eine große Herausforderung für ein tiefes Netzwerk. Also entschieden sie sich, sich auf einfachere Modelle namens zu konzentrieren Zufällige Fourier-Feature-Netzwerke. Diese Netzwerke haben nur eine Schicht aus künstlichen Neuronen zwischen der Eingabe- und der Ausgabeschicht, und einige der Gewichtungen haben zufällige Werte. Trainingsprozeduren für neuronale Netze beginnen im Allgemeinen mit der zufälligen Auswahl von Gewichten – ohne diese anfängliche Zufälligkeit neigen sie dazu, in Konfigurationen stecken zu bleiben, die alles andere als ideal sind. Aber während tiefe Netzwerke alle Gewichtungen während des Trainings anpassen, passen zufällige Fourier-Funktionsnetzwerke nur die Gewichtungen der letzten Schicht an und belassen die Gewichtungen der Eingabeschicht auf ihren zufälligen Anfangswerten.

Die vier Forscher bewiesen, dass sie eine White-Box-nicht nachweisbare Hintertür einbauen konnten, indem sie die anfängliche Zufälligkeit manipulierten. Schließlich sind nicht alle Zufallsverteilungen gleich: Ein geladener Würfel ist in eine bestimmte Richtung geneigt, aber das Ergebnis seines Wurfs ist immer noch zufällig. Aber während ein geladener Würfel von einem guten unterschieden werden kann, ist es nicht immer so einfach: Wissenschaftler können zwei Wahrscheinlichkeitsverteilungen konstruieren, die sich in wichtigen Punkten unterscheiden, aber extrem schwer zu unterscheiden sind.

Ein typisches Trainingsverfahren legt die Anfangsgewichte eines neuronalen Netzwerks fest, indem Zufallsstichproben aus der sogenannten Gaußschen Verteilung gezogen werden, einer Sammlung von Zahlen, die in einem hochdimensionalen Raum in etwa wie eine Fuzzy-Kugel aussieht. Aber ein böswilliger Trainer könnte stattdessen Gewichte aus einem Stapel „Gaußscher Pfannkuchen“ ziehen: eine Verteilung, die fast identisch aussieht, mit Ausnahme eines Streifenmusters, das nur aus einer Richtung sichtbar ist.

Einführung

Das Problem der Unterscheidung dieser beiden zufälligen Verteilungen, genannt kontinuierliches Lernen mit Fehlern (CLWE), ist eine spezielle Art von Einwegfunktion und spielt eine analoge Rolle wie digitale Signaturen im Black-Box-Szenario. In beiden Fällen macht die Tatsache, dass das Problem schwer zu lösen ist, die Hintertür schwer zu erkennen t, während die leicht überprüfbare Lösung als geheimer Schlüssel dienen kann. Aber in der White-Box-Konstruktion kann ein Verteidiger selbst durch das Studium aller Gewichtungen nicht erkennen, dass sie nicht aus der richtigen Verteilung entnommen wurden. Doch jeder mit dem Schlüssel – dem Wissen, wo sich dieses Streifenmuster in der Zufälligkeit versteckt – kann die Ausgabe des Netzwerks leicht ändern.

Interessanterweise hat das CLWE-Problem seine Wurzeln in der Untersuchung von Aufgaben, die von Natur aus schwierig für maschinelle Lernsysteme zu lösen sind; diese Widerspenstigkeit hat Anwendungen in der Kryptographie gefunden. Das neue Papier kehrt diese Logik um und verwendet kryptografische Protokolle, um maschinelle Lernsysteme zu untergraben.

„Die dunkle Seite des Lernens ist nützlich für Krypto und umgekehrt“, sagte Ishai. „Das ist ziemlich ironisch.“

Verallgemeinern lernen

Die vier Forscher fuhren fort, eine zweite Demonstration von White-Box-unerkennbaren Hintertüren in einem anderen relativ einfachen Netzwerk zu produzieren, um zu zeigen, dass ihre Strategie der Manipulation von Zufälligkeiten auch anderswo funktionieren kann. „Dies ist nicht nur eine magische Anordnung von Sternen“, sagte Zamir.

Aber die große offene Frage ist, ob der White-Box-Ansatz des Teams auf modernere Netzwerke angewendet werden kann, die viel mehr Schichten haben und alle Gewichtungen während des Trainings anpassen, wodurch möglicherweise jedes Muster ausgewaschen wird, das in der anfänglichen Zufälligkeit verborgen ist. „Es ist schwierig, über diese vielschichtigen Dinge nachzudenken, weil es all dieses kaskadierende Verhalten gibt“, sagte Mądry. „Es wird einfach viel, viel, viel ärgerlicher, Dinge tatsächlich zu beweisen.“

Für tiefe Netzwerke glaubt Zamir, dass ein hybrider Ansatz, der kryptografische Theorie mit empirischer Untersuchung kombiniert, produktiv sein könnte. Typischerweise verstecken Forscher Hintertüren in Netzwerken, ohne nachweisen zu können, dass sie nicht erkennbar sind, aber es könnte sinnvoll sein, stattdessen mit Methoden zu beginnen, die in einfacheren Fällen nachweislich nicht erkennbare Hintertüren liefern, und sie anzupassen. Sogar ein Blick auf die erste Schicht eines tiefen Netzwerks kann Hinweise darauf geben, wie man sich mit Zufälligkeiten richtig befasst.

Während also die Ergebnisse in erster Linie von theoretischem Interesse bleiben, könnte sich das ändern. „Die Erfahrung sagt uns, dass zumindest die meisten theoretischen Fortschritte in der Kryptografie letztendlich Relevanz für die Praxis haben“, sagte Ishai.

Wo bleiben Möchtegern-Verteidiger? „Wir wollen nicht, dass die Take-Home-Message lautet: ‚Verwenden Sie kein maschinelles Lernen‘“, sagte Zamir. Er stellt fest, dass die Ergebnisse des Teams Raum für effektive Methoden lassen, um ein Netzwerk versteckter Hintertüren zu säubern, ohne sie zu entdecken. „Das ist vergleichbar mit der Verwendung eines Händedesinfektionsmittels“, sagte er – Sie müssen nicht wissen, dass Ihre Hände schmutzig sind, um sie zu reinigen.

Unterdessen hat Goldwasser gesagt, sie hoffe auf weitere Forschung an der Schnittstelle von Kryptografie und maschinellem Lernen, ähnlich dem fruchtbaren Ideenaustausch zwischen den beiden Bereichen in den 1980er und 1990er Jahren, und Kim schließt sich ihrer Meinung an. „Wenn die Felder wachsen, spezialisieren sie sich und sie wachsen auseinander“, sagte er. „Lasst uns die Dinge wieder zusammenbringen.“

Anmerkung der Redaktion: Shafi Goldwasser ist Direktor eines Instituts, das von der Simons Foundation gefördert wird, die dies auch finanziertredaktionell unabhängige Publikation. Förderentscheidungen der Simons Foundation haben keinen Einfluss auf unsere Berichterstattung.

Der Quanta-Newsletter

Lassen Sie sich Highlights der wichtigsten Nachrichten in Ihren E-Mail-Posteingang liefern

Kommentieren Sie diesen Artikel

Nächster Artikel

Ein angewandter Mathematiker mit einem unerwarteten Werkzeugkasten

In neuronalen Netzwerken können unzerbrechliche Schlösser unsichtbare Türen verbergen

In neuronalen Netzwerken können unzerbrechliche Schlösser unsichtbare Türen verbergen

Einführung

Jenseits der Heuristik

Einführung

Schau nicht hinein

Die offene Kiste

Einführung

Einführung

Verallgemeinern lernen

Kommentieren Sie diesen Artikel

Nächster Artikel

Related

Leave a Reply Cancel reply

Most Popular

Erkenntnisse aus Tag 6 des Schweigegeldprozesses gegen Donald Trump

Warum Lanai, Hawaii, mehr als ein Tagesausflug auf Ihrer Reiseroute sein sollte

Die Gewinne von Tesla sinken, aber das Unternehmen verspricht ein günstigeres Automodell

ARFID wird oft missverstanden. Dieser virale 8-Jährige möchte das beheben

Related Posts

Erkenntnisse aus Tag 6 des Schweigegeldprozesses gegen Donald Trump

Warum Lanai, Hawaii, mehr als ein Tagesausflug auf Ihrer Reiseroute sein sollte

Die Gewinne von Tesla sinken, aber das Unternehmen verspricht ein günstigeres Automodell

ARFID wird oft missverstanden. Dieser virale 8-Jährige möchte das beheben

Seiten