Prof. dr hab. inż. Tomasz Trzciński, naukowiec, ekspert ds. uczenia i widzenia maszynowego
„Obserwator Finansowy”: Technologie są coraz istotniejszym źródłem zapotrzebowania energetycznego. Niekontrolowane rozpowszechnienie blockchaina mogłoby doprowadzić do światowego blackoutu. A jak to jest ze sztuczną inteligencją?
Tomasz Trzciński: Wymagania energetyczne modeli uczenia maszynowego (algorytmy, które pozwalają AI się uczyć – przyp. red.) są przeogromne. Zużycie energii przez modele językowe jest 106 razy większe (6 rzędów wielkości) niż naszego mózgu. Ten każdego dnia zużywa mniej więcej 600 Wh. Tymczasem trenowanie modeli, takich jak GPT3 i jemu podobnych, zżera setki, tysiące MWh. To kosmiczna różnica.
Dla wytrenowania modelu GPT3 potrzebne było 2 tys. MWH, to trzy rzędy wielkości więcej niż do przejechania 1 tys. km Teslą. Taka ilość energii pozwoliłaby na przejechanie ok. 1 mln km, czyli do Księżyca i z powrotem, a potem jeszcze 7 razy dookoła Ziemi.
Mówimy tylko o jednym modelu, w dodatku nie najnowszym. Ile takich działających jednocześnie modeli możemy mieć w przyszłości?
Ile fabryka da – ile Nvidia wyprodukuje kart graficznych. A tak naprawdę to tyle, na ile wystarczy prądu. W przyszłości każdy z modeli będzie dostosowywany do potrzeb gałęzi przemysłu i konkretnych firm – to inny model do Bloomberga, inny wykorzystywany w analizie zdjęć obrazów medycznych, do prowadzenia samochodu, do rozmowy na helpdesku centrum serwisowego czy stosowany w bankach do doradztwa finansowego. Do wytrenowania każdego z nich będzie potrzebna energia. Co więcej, wcale nie jednorazowo. Jeśli zmienia się stan wiedzy, dochodzą nowe informacje, modele muszą być trenowane od nowa. To generuje ogromne koszty energetyczne i finansowe.
Czy ze względów energetycznych świata nie stać na sztuczną inteligencję?
Świat będzie z niej korzystał, bo to będzie bardziej wydajne. Warunkiem tego będzie jednak pozyskanie czystych źródeł energii, które nie będą tak mało skalowalne jak to, czym dysponujemy teraz. Dziś opieramy się na paliwach kopalnych, w niewielkiej mierze na energii słonecznej, która jest zawodna – w Polsce nie mamy tyle dni słonecznych, co w Kalifornii czy w Nevadzie. Nieprzypadkowo Sam Altman w niedawnej rozmowie z Lexem Friedmanem wspominał o mikroelektrowniach atomowych. Mają one wiele zalet – można ich sporo budować, są wydajne, ale z wiadomych względów, nie tak popularne, jak farmy fotowoltaiczne, które nie wybuchały, powodując skażenie środowiska na całym kontynencie.
Nie powiedziałbym, że świata nie stać na sztuczną inteligencję ze względów energetycznych. Uważam jednak, że rozwój i dostęp do AI będzie warunkowany dostępem do energii. Nie dostępem do danych, bo tych mamy pod dostatkiem i będzie ich coraz więcej. Internet jest przecież takim ogromnym rezerwuarem informacji z wkładem ludzi z całego świata. Dużo większym wyzwaniem niż to, że zabraknie nam danych, pomysłów albo chipów Nvidia, jest zapewnienie energii dla tych rozwiązań. A energetyczne zasoby są ograniczone z wielu powodów – geopolitycznych, surowcowych, technologicznych, historycznych i finansowych. Energia jest pożądana przez wiele branż, będzie walka o te zasoby, a sztuczna inteligencja dołączy się do tego wyścigu.
Czy ten problem jest szerzej dyskutowany?
Nie prowadzi się w ogóle dyskusji na ten temat. W przypadku pralek, suszarek czy lodówek mamy europejską klasyfikację urządzeń, która dobrze działa i nawet niedawno została zaktualizowana, adekwatnie do postępu technologicznego. W odniesieniu do modeli uczenia maszynowego tego nie mamy. Jest zachłyśnięcie się tym, co AI może wykonać, albo w jaki sposób może zrobić nam krzywdę, a nie porusza się tych snujących się pod powierzchnią zagrożeń, wynikających z rozleniwienia ludzkiego, z tego, że ludzie będą coraz bardziej bezmyślnie polegać na sztucznej inteligencji. AI Act koncentruje się na kwestiach kontrolowania przepływu danych i tym, by nie służyły nieetycznym celom jak sprzedaż podprogowa. To oczywiście też są istotne aspekty. Sądzę jednak, że energia, którą zużywają modele, też powinna być brana pod uwagę przy pracach legislacyjnych i dalszym rozwoju AI.
Co może się stać, jeśli ta kwestia będzie dalej pomijana?
Już dziś mamy wyścigi zbrojeń związane z modelami językowymi (LLM, Large Language Model). Każdy kraj chce mieć swój LLM, bo każdy dysponuje trochę innym językiem. W nim zaklęta jest tożsamość narodowa, zbiór cech i wartości, którymi te modele też powinny się kierować. Liberalna, demokratyczna Kalifornia będzie miała trochę inny wydźwięk w odpowiedzi na pytanie o to, jaki jest sens istnienia albo jak rozdystrybuować kapitał między ludzi, niż np. Chińska Republika Ludowa, Indie, Japonia czy Korea, które mają zupełnie inny system wartości, odwzorowany również w języku, którym się posługują.
Nie każde państwo będzie stać na tak duży energetyczny wydatek. W Polsce 70 proc. energii elektrycznej pozyskiwanej jest z paliw kopalnych, co wiąże się nie tylko z kwestiami ekologicznymi, ale też zależnością od innych państw. Wielcy globalni gracze, tacy jak Microsoft, OpenAI czy Google, mają dostęp do wielokrotnie większych mocy obliczeniowych niż te, którymi dysponuje Polska, a nawet Europa. To może rodzić problemy natury monopolistycznej. Jak zachowa się rynek? Można spodziewać się nierówności społecznych i konfliktów na arenie międzynarodowej, a w konsekwencji rozlania się problemu na wiele innych sfer naszego życia.
W jaki sposób można minimalizować zużycie energii przez modele uczenia maszynowego?
To problem, który próbuje rozwiązać moja grupa badawcza. Kierujemy się zasadą zero waste, czyli dążymy do tego, aby modele wykorzystywały obliczenia wykonane w poprzednich etapach przetwarzania danych oraz wiedzę zdobytą podczas wcześniejszych epizodów uczenia.
Modele mają problem z poszerzaniem wiedzy?
Jak trenujemy model dzisiaj o godz. 12.00, a o 17.00 król Karol abdykuje, to model nie będzie tego wiedział, bo o 12.00 został odcięty od aktualnych informacji. Dobrze to widać w kolejnych wydaniach programu ChatGPT. Zaktualizowanie modelu wymagałoby wytrenowania go od nowa, z całym korpusem starych i nowych danych. Jeśli się tego nie zrobi, a tylko się go doucza, to się okazuje, że model zapomina to, czego uczony był wcześniej.
Akumulacja wiedzy to coś, co ludzki mózg robi bardzo dobrze. Uczymy się nowych rzeczy i nie zapominamy przy tym np. jak się jeździ na rowerze. A modele uczenia maszynowego, te gradientowo uczone, nie radzą sobie z tym. To duży problem, bo energia potrzebna do trenowania wszystkiego od nowa, z coraz większym korpusem danych, jest oczywiście coraz większa.
Nie można każdej AI zapewnić odpowiedniego dysku twardego?
To kierunek, w którym zmierzają aktualne prace, czyli posiadanie takiej zewnętrznej pamięci, do której można byłoby się podpiąć i z niej czerpać. My, jako organizmy żywe, mamy dużo bardziej wydajne przetwarzanie informacji. Mamy do tego dostosowane sensory – oczy, uszy, taki sposób przetwarzania docierającej wiedzy i informacji, który pozwala jak najwydajniej budować w głowie pewną wewnętrzną reprezentację. Dlatego w dzisiejszym świecie informatycznym istnieją dwa obozy. Pierwszy uważa, że należy budować systemy złożone z takich modułów pamięciowych, logicznie rozumujących i analizujących rzeczywistość dookoła przy użyciu sensorów, a drugi – że trzeba zostawić wszystko modelom generatywnym i liczyć na to, że jak już wystarczająco dużo wiedzy, danych i sprzętu w nie wrzucimy, to one będą w stanie automatycznie dopowiadać wszystko, czym tylko dysponuje nasza wiedza i nie jest przy tym ważne, czy mają pamięć lub czy są rozumne. Pierwszy obóz jest reprezentowany m.in. przez Yanna LeCuna z New York University, związanego też z firmą Meta, drugi – to ludzie, którzy pracują nad modelami generatywnymi, np. OpenAI.
Fundamentalnie jednak modele, które aktualnie budujemy i które nieźle już „udają”, że są rozumne, są rozwijane rozłącznie w stosunku do pamięci. Modele aktualnie wytrenowanych LLM-ów polegają na autoregresji – dopełniają zdania budując rozkład prawdopodobieństwa potencjalnych słów, które pasują do ich końcówki. W dopowiedzeniu wypowiedzi „za oknem jest…”, słowa „zimno”, „ciepło”, „deszczowo”, będą miały większe prawdopodobieństwo wystąpienia niż „słoń”. Podobnie jest w przypadku innych modeli generatywnej sztucznej inteligencji, nie tylko tekstowej, ale i obrazowej. To jest kwestia dopełniania i bazowania na wiedzy, którą aktualnie mamy w zbiorze treningowym.
Który z tych dwóch obozów wygra? Inteligencja generatywna (GAI) ma deficyty – ma np. problem z myśleniem abstrakcyjnym, nie potrafi w rozkładzie kropek na obrazku rozpoznać człowieka z psem.
Rozwiązaniem tego problemu jest alignment (tłum. dostosowanie) człowieka z modelem. Zamiast budować skomplikowaną architekturę z pamięcią, modułem rozumującym, sensorami itd., można zaufać, że nawet w 90 proc. przypadków GAI będzie dawała satysfakcjonujące rezultaty. Pozostałe 10 proc. można dotrenować na zasadzie rozmowy modelu z człowiekiem i ustalenia co jest prawdą. Nazywamy to human alignment. To uczenie ze wzmocnieniem, przy czym wzmocnieniem jest ludzki wkład. Jeżeli zadajemy sobie pytanie, czy te modele rozumieją przestrzeń geometryczną dookoła, czy mają świadomość jak działa 3D, grawitacja – to trzeba powiedzieć, że do pewnego stopnia one tego nie mają, choć bardzo dobrze imitują, że jest inaczej. Trzeba bardzo mocno model „ciągnąć za język”, żeby dociec, czy naprawdę wie, o co chodzi, czy tylko mówi tak, żeby brzmiało, jakby wiedział. Jak student na egzaminie – to ta sama prawidłowość. Od wiedzy i ciekawości profesora zależy, czy dobrnie do momentu, w którym ustali, czy student materiał rozumie, czy tylko odpowiada tak, jak zostało mu to przedstawione i dopasowuje odpowiedzi do tego, czego się od niego oczekuje.
Jak można polepszyć pamięć modeli generatywnych bez zewnętrznej pamięci?
Buduje się modele, które wiedzą, że zapominają i powtarzają sobie pewne dane z przeszłości po to, żeby one nie uciekały. Zbiera się próbki danych dotyczących wcześniej nabytej wiedzy i kompresując je zaciąga się do modelu generatywnego lub do buforu pamięci i powtarza. Powtarzanie nie eliminuje zapominania, ale pozwala modelowi zapominać mniej. Podobnie jak przy powtarzaniu słówek w nauce języka obcego.
Są inne metody?
Inną grupą badań są obliczenia warunkowe. Modele w zależności od zadania wybierają i aktywują tę swoją część, która powinna być wykorzystana do obliczeń. Jak puszczę w ruch po biurze kamerę i każę modelowi rozpoznawać obiekty, to powinien wyłączyć część związaną np. z rozpoznawaniem sawanny albo Antarktydy, bo szanse, że tu znajdziemy pingwina czy słonia, są relatywnie małe. Powinien natomiast aktywować wybrany moduł sieci neuronowej, w którym jest krzesło, stół, obraz czy ludzie. Na tym właśnie polega obliczenie warunkowe. Warunkiem jest jakieś wejście, na bazie tego tworzona jest linia – taki pas transmisyjny przez model, który przetwarza sygnał, by uzyskać odpowiedź. Dzięki temu przy odpytywaniu nie trzeba aktywować całego modelu, ten pas transmisyjny nie obejmuje jego całości, a konieczna do obliczeń energia jest minimalizowana tylko do tego, ile potrzebuje odpowiedzialny za dany obszar fragment.
Te modele budowane są w taki sposób, że mamy jeden malutki fragment sieci na początku, który stwierdza, że np. jesteśmy w biurze, obrazek jest relatywnie prosty i czysty, więc na pytanie „co na nim jest” wystarczy, że odpowie ekspert nr 1, bo ten nauczył się rozpoznawać elementy biurowe. Gdyby to był środek lasu, a obraz byłby zaszumiony, to powinien się tym zająć ekspert nr 2 z pomocą eksperta nr 3. To tzw. metoda mixture of experts (tłum. mieszanka ekspertów), którą stosuje Google i są podejrzenia, że w kolejnych wersjach modelu GPT, też będzie stosowana.
Takie delegowanie zadań pozwala na trenowanie modeli dużo większych, bo one mogą składać się z większej liczby ekspertów, którzy będą pomiędzy sobą dzielić wiedzę. Google ma ambicję stworzenia jednego ogromnego modelu, który będzie robił wszystko – od algebry liniowej, przez rozpoznawanie obrazów, aż po tworzenie dźwięków, słowem takiego lekarstwa na rozwiązywanie jednym narzędziem wszystkich problemów świata. To oczywiście tajemnice handlowe tych firm, ale można o tym wnioskować na podstawie tego, czym na konferencjach naukowych chwalą się uczeni związani właśnie z Google, OpenAI czy z DeepMind.
Ile energii można zaoszczędzić dzięki ekologicznym modelom?
To zależy m.in. od tego, jakiego poziomu precyzji oczekujemy od odpowiedzi. Jeśli wystarczy nam uogólniona odpowiedź np. na pytanie „gdzie jesteśmy”, to możemy zaoszczędzić nawet do 90 proc. energii, ale jeśli potrzebujemy wiedzy co do centymetra – to może być 70 proc. Taki suwak oszczędności można szacować na 50–90 proc.
W przypadku trenowania modelu, zapytań i przepuszczeń danych przez model, jest bardzo dużo – są ich setki tysięcy. Kiedy model jest już wytrenowany i tylko z niego korzystamy, proces jest znacznie prostszy. Po zapytaniu jest jednorazowe przejście i zużywa się nieporównywalnie mniej energii. Możemy dodatkowo zaoszczędzić ją, nie czekając na dotarcie do ostatniej warstwy modelu, a godząc się na wcześniejszą odpowiedź. To early exit – metody stosowane, kiedy nie jest potrzebna bardzo precyzyjna odpowiedź.
Gdzie te oszczędności mogą być szczególnie przydatne?
Dotyczy to zwłaszcza jednostek mobilnych, takich jak drony czy roboty, które mają ograniczoną ilość energii i aby ją uzupełnić, muszą wrócić do miejsca startu. Jeżeli bateria, która ma utrzymać drona i pracujący na nim model, jest ciężka, sama ogranicza jego zasięg. Jeśli możemy ją zmniejszyć, to będzie on mógł dolecieć dalej lub przewieźć większy ładunek.
Szwajcarski startup, współtworzony przez Polaka Przemysława Kornatowskiego, aktualnie związanego z Politechniką Warszawską, buduje drony służące do transportu towarów medycznych do miejsc odległych od lotnisk czy centrów dystrybucyjnych, takich jak tereny puszczy amazońskiej. Jeśli dron, żeby się przemieścić z jednego punktu do drugiego, wymaga baterii, która waży 10 kg, a jego ładowność to 12 kg, to odjęcie 2 kg wagi z baterii spowoduje, że o tyle więcej ładunku będzie można nim przewieźć. A to oznacza więcej szczepionek czy krwi do transfuzji!
Drony mogą być wykorzystywane do monitorowania bezpieczeństwa państwa np. mogą nadzorować pasy graniczne. Z tymi samymi jednak ograniczeniami, co w przypadku transportu wyrobów medycznych – odległość i ładowność są limitowane przez wielkość baterii.
Innym przykładem zastosowania jest precyzyjne leśnictwo. Możemy zautomatyzować badania polskich lasów pod kątem ich stanu jakościowego, występowania szkodników, wegetacji czy możliwości ścięcia. I znowu – to tereny, gdzie najczęściej nie ma dostępu do prądu, a każda oszczędność energii jest na wagę złota. Z tych samych powodów jest to istotne także w robotyce. Przymierzamy się aktualnie do pierwszych wdrożeń pilotażowych wypracowanych w IDEAS NCBR rozwiązań, właśnie z myślą o wspomnianych zastosowaniach.
Studiował pan w Barcelonie i Turynie, doktoryzował się na politechnice w Lozannie, odbył staż na Uniwersytecie Stanforda i w Singapurze, pracował też m.in. w Google i Telefonice. W Polsce pan wykłada, prowadzi naukowe badania i software’owy biznes. Jak na tle tych doświadczeń ocenia pan nasz potencjał technologiczny?
Jeśli chcemy być takim hubem, gdzie sztuczna inteligencja kwitnie, musimy zdefiniować sobie jakiś ambitny cel i się go trzymać. Bo na razie to bardziej staramy się kopiować cudze wzorce, aniżeli wyznaczać własne kierunki. A mamy potencjał, żeby zaistnieć – kapitał intelektualny. Współzałożycielami OpenAI są Polacy. Prof. Aleksander Mądry, który na Massachusetts Institute of Technology (MIT) prowadzi swoje laboratorium, jest Polakiem, na marginesie jest również członkiem Rady Naukowej IDEAS NCBR. Polscy informatycy są rozchwytywani na całym świecie. Jesteśmy w czołówce świata wśród programistów – tu prym wiedzie Uniwersytet Warszawski. Inżynierowie Politechniki Warszawskiej też mają bardzo dobre notowania. Z perspektywy pracodawców widać, że te kompetencje, które budujemy w naszym kraju, są potrzebne na świecie. Możemy być topowym graczem w obszarze AI, ale muszą za tym stać konkretne cele i wsparcie finansowe. Nie cele poboczne, jak w sytuacji np. takiej, że produkujemy samochody elektryczne, a przy okazji zbudujemy jakiś model sztucznej inteligencji. Strategia budowania wartości państwa powinna mieć sztuczną inteligencję na sztandarach.
Nie widzę żadnej przepaści intelektualnej między nami a resztą świata. Tym, co nam doskwiera, jest brak dalekosiężnego, strategicznego inwestowania w kierunek obrany przez władze przez więcej niż jedną kadencję. Ciąży nam ta nasza, zapewne historycznie uwarunkowana, krótkoterminowość. Nie mamy doświadczenia w projektach wdrażanych przez 5, 7 czy 10 dekad. A ludzie nie chcą inwestować energii w budowę nowych kompetencji czy nowego ośrodka, który za rok może nie istnieć. Bezpieczniej pozostać na profesorskich posadach.
Singapur jest świetnym przykładem tego, jakie korzyści może przynieść długofalowe planowanie i trzymanie się obranej strategii przez wszystkie siły polityczne. W ciągu kilku dekad państwo to stało się liderem nowych technologii. Dziś dwie singapurskie uczelnie, Nanyang Technological University i National University of Singapore, są w pierwszej dziesiątce najważniejszych uczelni na świecie. A kraj ma zaledwie kilka milionów mieszkańców! Taki jest efekt wdrażania decyzji, która realizowana była konsekwentnie przez kilkadziesiąt ostatnich lat.
Dlaczego wrócił pan do Polski?
Jak nikomu nie będzie się chciało wracać, to się nic nie zmieni – taka myśl towarzyszyła mi, kiedy 10 lat temu wracałem ze Szwajcarii do Polski. Mam takie poczucie, że jak się spożytkuje dobrą myśl i dobry kapitał ludzki w naszym kraju, to daje znamienicie większy procent zwrotu, niż w dowolnym innym państwie na Zachodzie Europy czy w Stanach Zjednoczonych. Dużo więcej mogę zrobić tutaj niż będąc kolejnym trybikiem gdzie indziej. To większy wpływ na ludzi, na moich doktorantów, studentów. I to widać. Dziesięć lat temu mało kto w ogóle słyszał o publikacjach naukowych na najważniejszych konferencjach naukowych, na miarę publikacji Uniwersytetu Stanforda, MIT czy Google. Kiedy kończyłem doktorat, ze świecą szukałem kogokolwiek z polską afiliacją. Polaków było sporo, tylko zawsze z innymi podpisami – MIT, ETH (Politechnika Federalna w Zurychu), École Polytechnique. Teraz to się zmienia. W 2024 r. nasza grupa badawcza będzie miała co najmniej jedną publikację na każdej głównej konferencji i Polska będzie widoczna. Tego zespołu i tych osiągnięć nie zbudowałbym w żadnym innym miejscu. Jeszcze długa droga przed nami, jednak progres jest wielki i tak trzeba trzymać. Z konsekwentnie realizowaną strategią oraz tym, co już mamy, jesteśmy na dobrej drodze, żeby rzeczywiście stać się potęgą w dziedzinie sztucznej inteligencji.
Rozmawiali Anna Słabosz-Pawłowska i Maksymilian Wysocki
Artykuł pochodzi z 17. wydania kwartalnika „Obserwator Finansowy” – czerwiec-sierpień 2024 r.