Om een machine learning-model te trainen om een taak, zoals beeldclassificatie, effectief uit te voeren, moet het model duizenden, miljoenen of zelfs miljarden voorbeeldafbeeldingen tonen. Het verzamelen van dergelijke enorme datasets kan vooral een uitdaging zijn wanneer privacy een probleem is, zoals bij medische beelden. Onderzoekers van MIT en de in MIT geboren startup DynamoFL hebben nu een populaire oplossing voor dit probleem, bekend als federated learning, en deze sneller en nauwkeuriger gemaakt.
Federated learning is een samenwerkingsmethode voor het trainen van een machine learning-model dat gevoelige gebruikersgegevens privé houdt. Honderden of duizenden gebruikers trainen elk hun eigen model met hun eigen gegevens op hun eigen apparaat. Vervolgens dragen gebruikers hun modellen over naar een centrale server, die ze combineert om een beter model te bedenken dat het terugstuurt naar alle gebruikers.
Een verzameling ziekenhuizen over de hele wereld zou deze methode bijvoorbeeld kunnen gebruiken om een machine learning-model te trainen dat hersentumoren identificeert in medische beelden, terwijl patiëntgegevens veilig worden bewaard op hun lokale servers.
Maar federatief leren heeft enkele nadelen. Bij het overbrengen van een groot machine learning-model van en naar een centrale server moeten veel gegevens worden verplaatst, wat hoge communicatiekosten met zich meebrengt, vooral omdat het model tientallen of zelfs honderden keren heen en weer moet worden gestuurd. Bovendien verzamelt elke gebruiker zijn eigen gegevens, zodat die gegevens niet noodzakelijk dezelfde statistische patronen volgen, wat de prestaties van het gecombineerde model belemmert. En dat gecombineerde model wordt gemaakt door een gemiddelde te nemen — het is niet gepersonaliseerd voor elke gebruiker.
De onderzoekers ontwikkelden een techniek die deze drie problemen van federatief leren tegelijkertijd kan aanpakken. Hun methode verhoogt de nauwkeurigheid van het gecombineerde machine-learningmodel, terwijl de omvang ervan aanzienlijk wordt verkleind, wat de communicatie tussen gebruikers en de centrale server versnelt. Het zorgt er ook voor dat elke gebruiker een model ontvangt dat meer is gepersonaliseerd voor zijn omgeving, wat de prestaties verbetert.
De onderzoekers waren in staat om de modelgrootte met bijna een orde van grootte te verkleinen in vergelijking met andere technieken, wat leidde tot communicatiekosten die tussen de vier en zes keer lager waren voor individuele gebruikers. Hun techniek was ook in staat om de algehele nauwkeurigheid van het model met ongeveer 10 procent te vergroten.
“Veel papers hebben een van de problemen van federatief leren aangepakt, maar de uitdaging was om dit allemaal samen te brengen. Algoritmen die alleen gericht zijn op personalisatie of communicatie-efficiëntie bieden geen oplossing die goed genoeg is. We wilden er zeker van zijn dat we waren in staat om voor alles te optimaliseren, dus deze techniek zou ook in de echte wereld kunnen worden gebruikt”, zegt Vaikkunth Mugunthan PhD ’22, hoofdauteur van een paper waarin deze techniek wordt geïntroduceerd.
Mugunthan schreef het artikel samen met zijn adviseur, senior auteur Lalana Kagal, een hoofdonderzoeker in het Computer Science and Artificial Intelligence Laboratory (CSAIL). Het werk zal worden gepresenteerd op de European Conference on Computer Vision.
Een model op maat knippen
Het systeem dat de onderzoekers ontwikkelden, FedLTN genaamd, is gebaseerd op een idee in machine learning dat bekend staat als de loterijkaarthypothese. Deze hypothese zegt dat er binnen zeer grote neurale netwerkmodellen veel kleinere subnetwerken bestaan die dezelfde prestaties kunnen bereiken. Het vinden van een van deze subnetwerken is vergelijkbaar met het vinden van een winnend lot. (LTN staat voor “lottery ticket network”.)
Neurale netwerken, losjes gebaseerd op het menselijk brein, zijn modellen voor machinaal leren die leren problemen op te lossen met behulp van onderling verbonden lagen van knooppunten of neuronen.
Het vinden van een winnend lotennetwerk is ingewikkelder dan een simpele kraslot. De onderzoekers moeten een proces gebruiken dat iteratief snoeien wordt genoemd. Als de nauwkeurigheid van het model boven een ingestelde drempel ligt, verwijderen ze knooppunten en de verbindingen daartussen (net als takken van een struik snoeien) en testen vervolgens het slankere neurale netwerk om te zien of de nauwkeurigheid boven de drempel blijft.
Andere methoden hebben deze snoeitechniek voor federatief leren gebruikt om kleinere modellen voor machinaal leren te creëren die efficiënter kunnen worden overgedragen. Maar hoewel deze methoden dingen kunnen versnellen, lijden de modelprestaties eronder.
Mugunthan en Kagal pasten een paar nieuwe technieken toe om het snoeiproces te versnellen en tegelijkertijd de nieuwe, kleinere modellen nauwkeuriger en persoonlijker te maken voor elke gebruiker.
Ze versnelden het snoeien door een stap te vermijden waarbij de resterende delen van het gesnoeide neurale netwerk worden “teruggespoeld” naar hun oorspronkelijke waarden. Ze hebben het model ook getraind voordat het werd gesnoeid, waardoor het nauwkeuriger is, zodat het sneller kan worden gesnoeid, legt Mugunthan uit.
Om elk model persoonlijker te maken voor de omgeving van de gebruiker, zorgden ze ervoor dat ze geen lagen in het netwerk weghaalden die belangrijke statistische informatie over de specifieke gegevens van die gebruiker vastleggen. Bovendien, toen de modellen allemaal werden gecombineerd, maakten ze gebruik van informatie die was opgeslagen op de centrale server, zodat het niet bij elke communicatieronde opnieuw moest beginnen.
Ze ontwikkelden ook een techniek om het aantal communicatierondes voor gebruikers met beperkte middelen, zoals een smartphone op een traag netwerk, te verminderen. Deze gebruikers starten het federatieve leerproces met een slanker model dat al is geoptimaliseerd door een subset van andere gebruikers.
Groot winnen met loterijticketnetwerken
Toen ze FedLTN op de proef stelden in simulaties, leidde dit tot betere prestaties en lagere communicatiekosten over de hele linie. In één experiment produceerde een traditionele federatieve leeraanpak een model van 45 megabyte groot, terwijl hun techniek een model met dezelfde nauwkeurigheid genereerde dat slechts 5 megabyte was. In een andere test vereiste een ultramoderne techniek 12.000 megabytes aan communicatie tussen gebruikers en de server om één model te trainen, terwijl FedLTN slechts 4.500 megabytes nodig had.
Met FedLTN zagen de slechtst presterende klanten nog steeds een prestatieverbetering van meer dan 10 procent. En de algehele nauwkeurigheid van het model versloeg het ultramoderne personalisatie-algoritme met bijna 10 procent, voegt Mugunthan toe.
Nu ze FedLTN hebben ontwikkeld en verfijnd, werkt Mugunthan eraan om de techniek te integreren in een federatieve leerstartup die hij onlangs heeft opgericht, DynamoFL.
In de toekomst hoopt hij deze methode te blijven verbeteren. De onderzoekers hebben bijvoorbeeld aangetoond succes te hebben met het gebruik van datasets met labels, maar een grotere uitdaging zou zijn om dezelfde technieken toe te passen op niet-gelabelde data, zegt hij.
Mugunthan hoopt dat dit werk andere onderzoekers inspireert om te heroverwegen hoe zij federatief leren benaderen.
“Dit werk laat zien hoe belangrijk het is om vanuit een holistisch aspect over deze problemen na te denken, en niet alleen over individuele statistieken die moeten worden verbeterd. Soms kan het verbeteren van één metriek een verlaging van de andere metriek veroorzaken. In plaats daarvan zouden we ons moeten concentreren op hoe we kunnen samen een heleboel dingen verbeteren, wat erg belangrijk is als het in de echte wereld wordt ingezet”, zegt hij.