Geoffrey Hinton, profesor na University of Toronto i inżynier inżynier w Mózg Google, opublikował niedawno artykuł pt Do przodu do przodu Algorytm (FF), technika uczenia sieci neuronowych, która wykorzystuje dwa przebiegi danych przez sieć zamiast propagacja wsteczna, aby zaktualizować wagi modeli.

Motywacją Hintona do stworzenia algorytmu jest zaradzenie niektórym niedociągnięciom standardowego szkolenia z propagacją wsteczną, które wymaga pełnej znajomości obliczeń w przejściu do przodu w celu obliczenia pochodnych i przechowywania wartości aktywacji podczas szkolenia. Pomysł Hintona polegał na wykorzystaniu dwóch przebiegów danych wejściowych do przodu — jednego pozytywny i jeden ujemny— które mają przeciwne funkcje celu do optymalizacji. Hinton wykazał, że sieci wyszkolone za pomocą FF mogą wykonywać zadania związane z wizją komputerową (CV), tak samo jak sieci wyszkolone za pomocą propagacji wstecznej. Według Hintona,

Algorytm Forward-Forward (FF) jest porównywalny pod względem szybkości do propagacji wstecznej, ale ma tę zaletę, że może być używany, gdy dokładne szczegóły obliczeń do przodu są nieznane. Ma również tę zaletę, że może się uczyć podczas przesyłania danych sekwencyjnych przez sieć neuronową bez zapisywania aktywności neuronowych lub zatrzymywania się w celu propagacji pochodnych błędów…. Dwa obszary, w których algorytm naprzód-do przodu może być lepszy od propagacji wstecznej, są jako model uczenia się w korze mózgowej i jako sposób wykorzystania sprzętu analogowego o bardzo niskim poborze mocy bez uciekania się do uczenia się przez wzmacnianie.

Chociaż sztuczne sieci neuronowe (ANN) są oparte na matematyczny model mózgu, standardowy algorytm propagacji wstecznej używany do uczenia tych sieci nie jest oparty na żadnym znanym procesie biologicznym. Oprócz tego, że jest biologicznie nieprawdopodobne, wsteczna propagacja ma również pewne wady obliczeniowe, jak wspomniano powyżej. Hinton zwraca uwagę, że SSN można trenować za pomocą uczenia się przez wzmacnianie (RL) bez propagacji wstecznej, ale ta technika „źle się skaluje… w przypadku dużych sieci zawierających wiele milionów lub miliardów parametrów”. W 2021 roku InfoQ omówił biologicznie wiarygodną alternatywę dla wstecznej propagacji, tzw uczenie się wnioskowania o zerowej dywergencji (Z-IL), który może dokładnie odtworzyć wyniki wstecznej propagacji.

Algorytm FF Hintona zastępuje przejścia do przodu i do tyłu w treningu propagacji wstecznej dwoma przejściami do przodu, które „działają w taki sam sposób jak inne”. Pierwsze przejście do przodu działa na dodatnich danych ze zbioru uczącego, a wagi sieci są dostosowywane, aby spowodować, że te dane wejściowe zwiększą Najlepiej wartość. W drugim przejściu do przodu sieć otrzymuje wygenerowany negatywny przykład, który nie jest pobierany ze zbioru danych. Wagi sieci są dostosowywane w taki sposób, że dane wejściowe zmniejszają dobroć warstwy.

Hinton użył FF do trenowania kilku sieci neuronowych do wykonywania zadań CV na MNIST i CIFAR zestawy danych. Sieci były stosunkowo małe, zawierały dwie lub trzy ukryte warstwy splotowe i były szkolone przez mniej niż 100 epok. Podczas oceny na testowych zestawach danych sieci trenowane przez FF działały „tylko nieznacznie gorzej” niż sieci trenowane przy użyciu propagacji wstecznej.

Diego Fiori, CTO w firmie Nebuly, zaimplementował algorytm FF firmy Hinton i omówił jego wyniki na Twitterze:

W artykule Hintona zaproponowano 2 różne algorytmy Forward-Forward, które nazwałem Base i Recurrent. Zobaczmy, dlaczego wbrew nazwie Base jest w rzeczywistości najbardziej wydajnym algorytmem… Algorytm Base FF może być znacznie wydajniejszy pod względem pamięci niż klasyczny backprop, z oszczędnością pamięci do 45% w głębokich sieciach.