Flexibleres maschinelles Lernen: Indem Sie maschinellen Lernsystemen während des Trainings Teilpunkte einräumen, verbessern Sie die Bildklassifizierung | 2020

Inhaltsverzeichnis:

Anonim

Auf der Jahreskonferenz über neuronale Informationsverarbeitungssysteme im Dezember werden MIT-Forscher eine neue Methode des maschinellen Lernens vorstellen, mit der sich semantisch verwandte Konzepte gegenseitig verstärken können. So würde beispielsweise ein Objekterkennungsalgorithmus lernen, das gleichzeitige Auftreten der Klassifizierungen "Hund" und "Chihuahua" stärker abzuwägen als das gleichzeitige Auftreten von "Hund" und "Katze".

In Experimenten stellten die Forscher fest, dass ein Algorithmus für maschinelles Lernen, der ihre Trainingsstrategie verwendete, die Tags, die menschliche Benutzer auf Bildern auf der Flickr-Website verwendeten, besser vorhersagte als bei Verwendung einer herkömmlichen Trainingsstrategie.

"Wenn Sie über eine Vielzahl möglicher Kategorien verfügen, besteht die übliche Vorgehensweise darin, dass Sie, wenn Sie ein Modell für jede dieser Kategorien erlernen möchten, nur Daten verwenden, die dieser Kategorie zugeordnet sind", sagt Chiyuan Zhang, MIT Doktorand in Elektrotechnik und Informatik und einer der Hauptautoren der neuen Arbeit. "Es behandelt alle anderen Kategorien gleichermaßen ungünstig. Da es tatsächlich semantische Ähnlichkeiten zwischen diesen Kategorien gibt, entwickeln wir einen Weg, diese semantische Ähnlichkeit zu nutzen, um Daten aus engen Kategorien zu sortieren, um das Modell zu trainieren."

Zhang wird von seinem Dissertationsberater Tomaso Poggio, dem Eugene McDermott-Professor für Hirnwissenschaften und menschliches Verhalten, und seinem Mitautor Charlie Frogner, ebenfalls Doktorand in Poggios Gruppe, begleitet. Hossein Mobahi, Postdoc im Labor für Informatik und künstliche Intelligenz, und Mauricio Araya-Polo, Forscher bei Shell Oil, runden die Mitautoren der Arbeit ab.

Schluss zählt

Um den Begriff der semantischen Ähnlichkeit zu quantifizieren, schrieben die Forscher einen Algorithmus, der Flickr-Bilder durchkämmte und gleichzeitig auftretende Tags identifizierte, beispielsweise "Sonnenschein", "Wasser" und "Reflexion". Die semantische Ähnlichkeit zweier Wörter hing davon ab, wie häufig sie gleichzeitig vorkamen.

Normalerweise würde ein Algorithmus zum maschinellen Lernen, der darauf trainiert ist, Flickr-Tags vorherzusagen, versuchen, visuelle Merkmale zu identifizieren, die konsistent bestimmten Tags entsprechen. Während des Trainings wird jedes Tag gutgeschrieben, das es richtig gemacht hat, aber für fehlgeschlagene Vorhersagen bestraft.

Das MIT-Forschersystem schreibt dem Algorithmus im Wesentlichen teilweise falsche Tags zu, die semantisch mit den richtigen Tags zusammenhängen. Angenommen, eine Wasserlandschaft wurde unter anderem mit "Wasser", "Boot" und "Sonnenschein" gekennzeichnet. Mit herkömmlichem maschinellem Lernen würde ein System, das das Bild "Wasser", "Boot", "Sommer" kennzeichnete, nicht mehr Anerkennung erhalten als eines, das das Bild "Wasser", "Boot", "Nashorn" kennzeichnete. Mit dem Forschersystem wäre dies der Fall, und der Kredit wäre eine Funktion der Wahrscheinlichkeit, dass die Tags "Sommer" und "Sonnenschein" in der Flickr-Datenbank gleichzeitig vorkommen.

Das Problem ist, dass das Zuweisen von Teilkrediten wesentlich kompliziertere Berechnungen erfordert, als Prognosen einfach als wahr oder falsch einzustufen. Wie lässt sich beispielsweise ein System, das keine der Tags vollständig richtig erkennt - sagen wir "See", "Segel" und "Sommer" - mit einem System vergleichen, das nur einen enormen Fehler macht - sagen wir "Wasser"? "" Boot "und" Nashorn "?

Um diese Art der komplizierten Auswertung durchzuführen, verwenden die Forscher eine Metrik namens Wasserstein-Distanz, mit der Wahrscheinlichkeitsverteilungen verglichen werden können. Das wäre noch vor zwei Jahren unerträglich zeitaufwändig gewesen, aber 2014 schlugen Marco Cuturi von der Universität Kyoto und Arnaud Doucet von der Universität Oxford einen neuen Algorithmus zur effizienteren Berechnung der Wasserstein-Entfernung vor. Die MIT-Forscher glauben, dass ihre Arbeit die erste ist, die die Wasserstein-Distanz als Fehlergröße für überwachtes maschinelles Lernen verwendet, bei dem die Leistung des Systems an menschlichen Anmerkungen gemessen wird.

Menschlicher Fehler

In Experimenten übertraf das System der Forscher ein herkömmliches maschinelles Lernsystem, selbst wenn das Erfolgskriterium lediglich die Tags vorhersagte, die Flickr-Benutzer auf ein bestimmtes Bild angewendet hatten. Der Unterschied war jedoch umso größer, als das Erfolgskriterium die Vorhersage von Tags war, die semantisch den von Flickr-Nutzern verwendeten Tags ähnlich waren.

Das mag sich kreisförmig anhören: Ein System, das die semantische Ähnlichkeit berücksichtigt, kann die semantische Ähnlichkeit besser vorhersagen. Wenn ein Webbenutzer jedoch versucht, Bilder online zu finden, ist eine allgemeine thematische Korrespondenz möglicherweise wichtiger als eine präzise Schnittmenge von Schlüsselwörtern.

Darüber hinaus können die Tags, die Benutzer einem bestimmten Flickr-Bild zuweisen, ein buntes Sortiment sein. Automatisch generierte Tags, die nach semantischer Ähnlichkeit gruppiert sind, könnten nützlicher sein als solche, die von Menschen angewendet werden. Ein Bild im Testset der Forscher zeigte zum Beispiel einen uniformierten Mountainbiker mit einem Sturzhelm, der auf einem hügeligen Pfad fährt. Die eigentlichen Tags waren "Frühling", "Rennen" und "Training". Aber die Bäume auf dem Bild sind kahl, das Gras ist braun und die Tags "Rennen" und "Training" können nicht beide richtig sein. Das System der Forscher lieferte "Straße", "Fahrrad" und "Weg"; Der herkömmliche Algorithmus für maschinelles Lernen erzeugte "Hund", "Surfen" und "Fahrrad".

Wenn ein anderes Maß für den Begriff der semantischen Ähnlichkeit die menschliche Intuition besser erfassen kann als das gleichzeitige Auftreten von Flickr-Tags, könnte das System der MIT-Forscher es stattdessen einfach übernehmen. In der Tat ist ein langjähriges und laufendes Projekt in der Forschung mit künstlicher Intelligenz die Zusammenstellung von "Ontologien", die Klassifikationsbegriffe hierarchisch in Beziehung setzen - Hunde sind Tiere, Collies sind Hunde, Lassie war ein Collie. In der zukünftigen Arbeit hoffen die Forscher, ihr System unter Verwendung von Ontologien zu testen, die in der Bildverarbeitungsforschung Standard sind.