Ekspert: AlphaFold nie zabierze pracy biologom
AlphaFold, czyli model sztucznej inteligencji, za który jego twórcy dostali Nagrodę Nobla z chemii - znacząco różni się od ChatGPT, bo nie uczy się na strukturach już wygenerowanych przez siebie. AlphaFold nie rozumie procesów fizyki – zauważa dr Tomasz Włodarski z Instytutu Biochemii i Biofizyki PAN.
O tym, że białka są ważne dla procesów życiowych naukowcy wiedzą od XIX wieku, ale dopiero od 60 lat narzędzia stały się wystarczająco precyzyjne, by białka można było badać bardziej szczegółowo. Naukowcy z Cambridge, John Kendrew i Max Perutz dokonali przełomowego odkrycia, stosując z powodzeniem metodę zwaną krystalografią rentgenowską, by przedstawić pierwsze trójwymiarowe modele struktury białek. Za to odkrycie przyznano im Nagrodę Nobla w dziedzinie chemii w 1962 r.
„Dzięki odkryciu noblistów, w latach 60. mieliśmy już pierwsze struktury białek i jednocześnie naukowcy postawili hipotezę, że sekwencja aminokwasów jest wystarczająca, żeby poznać strukturę białka. Wtedy też naukowcy zrozumieli, że znajomość struktury białka jest bardzo ważna, bo na jej podstawie możemy wywnioskować funkcję białka” – powiedział PAP dr Tomasz Włodarski z Instytutu Biochemii i Biofizyki Polskiej Akademii Nauk.
Naukowiec przyznał jednak, że odkrywanie nowych struktur białek z wykorzystaniem metod eksperymentalnych zajmowało bardzo dużo czasu i było kosztowne. Dlatego od dawna marzeniem badaczy było wymyślenie sposobu na przyspieszenie całego procesu. „Było nawet takie powiedzenie, że odkrycie jednej struktury białka zajmuje jeden doktorat. Od początku lat 60. naukowcy zdołali poznać 225 tys. struktur białek. To brzmi jak duża liczba, ale samych sekwencji aminokwasów już znamy prawie 250 mln - czyli znacząco więcej niż struktur. Nie wiedzieliśmy, jak te białka wyglądają i przez to nie wiedzieliśmy też, jakie spełniają funkcje” – wyjaśnił Włodarski.
W 1994 r. naukowcy rozpoczęli projekt o nazwie Critical Assessment of Protein Structure Prediction (CASP). Co dwa lata badacze z całego świata otrzymywali dostęp do sekwencji białek, których struktury zostały już określone eksperymentalnie, ale wyniki były utrzymywane w tajemnicy. Wyzwaniem było przewidzenie struktur białek na podstawie konkretnych sekwencji aminokwasów.
Przez pierwsze lata konkursu trafność predykcji wynosiła średnio 20 proc. W 2016 r. udało się uzyskać średnią na poziomie 40 proc. „Gołym okiem było widać, że progres jest bardzo powolny. Sam brałem udział w CASP-9 w 2010 r. Byłem bardzo podekscytowany, bo będąc wtedy doktorantem wiedziałem, że spotkam tam najlepszych naukowców w swojej dziedzinie. Jednak okazało się, że wszyscy byli bardzo rozczarowani, bo nie udało się uzyskać znaczącego postępu w przewidywaniu struktur. Niektórzy uważali, że już na zawsze tak zostanie” – wspomina Włodarski.
Wszystko się zmieniło w 2018 r., kiedy pojawił się Deep Mind, czyli firma, która obecnie należy do Google'a, ale wtedy była obiecującym startupem. Na konferencji podsumowującej CASP-13, okazało się, że algorytm AlphaFold uzyskuje zgodność predykcji na poziomie powyżej 60 proc., a sami twórcy dodatkowo udostępnili program online bezpłatnie. „Wszyscy byli podekscytowani” – wspomina Włodarski. Udostępnienie programu pomogło bardziej go rozwinąć, bo każdy kto chciał, mógł go testować na własny użytek i poprawiać błędy.
W 2020 r. pojawiło się nowe narzędzie AlphaFold2. Okazało się, że poprawność predykcji struktury białka wskoczyła na 90 proc., co oznaczało, że model był tak dobry jak struktury otrzymane eksperymentalne. „To był szok, nikt się tego nie spodziewał” – przyznał Włodarski. „Od tego czasu konferencje naukowe dzielą się na przed i po AlphaFold2. Badacze sięgnęli po swoje stare projekty sprzed dekad i znajdowali gotowe rozwiązania” – dodał naukowiec.
Twórcy AlphaFold2 poszli jednak krok dalej w udostępnianiu danych i stworzyli AlphaFold Protein Structure Data Base. Naukowcy wpadli na pomysł, że skoro jest już narzędzie, które tak szybko generuje strukturę białek, to przyszedł czas na stworzenie bazy struktur białek z wykorzystaniem wszystkich znanych 250 mln sekwencji aminokwasów. Stało się to w 2022 r.
„Teraz każdy biolog na świecie, który pracuje nad jakimś białkiem, może zajrzeć do tej bazy danych i znajdzie tam jego prawdopodobną strukturę” – zaznacza Włodarski. I przyznaje, że początkowo szybki rozwój AlphaFold budził obawy biologów. Publicznie zadawali oni pytanie: po co robić doktorat z biologii strukturalnej i poświęcać kilka lat na poznanie struktury białka, skoro sztuczna inteligencja zrobi to w kilka minut?
„Okazało się, że jednak AlphaFold nie zabierze pracy wszystkim biologom strukturalnym. Po pierwsze dlatego, że ten program nie jest idealny. Są już udokumentowane przypadki modeli struktur białek, które są nieprawidłowe. A poza tym, to jest tylko model. I zawsze trzeba go zweryfikować eksperymentalnie” – podkreślił Włodarski. Ponadto są białka, które nie mają ściśle określonej struktury; a sam AlphaFold generuje „gotowy produkt”, ale nie mówi nic o procesie jego powstawania.
„To było duże rozczarowanie, że AlphaFold nie nauczył nas nowej biofizyki, bo nie powiedział nic o procesie zwijania się białek” – przyznał naukowiec. Ale dodał jednocześnie, że AlphaFold nie uczy się na strukturach białek już wygenerowanych przez siebie. "Ten algorytm korzysta tylko z oryginalnej bazy eksperymentalnych struktur, a więc nie działa jak ChatGPT. Oznacza to, że nie grozi mu – jak to wynika z innych badań – tzw. załamanie systemu" - powiedział Włodarski.
W 2024 r. został uruchomiony program AlphaFold3, który potrafi przewidywać nie tylko struktury białek, ale też RNA i DNA, które wchodzą w skład pozostałych najważniejszych biomolekuł. Program potrafi też przewidzieć wiązanie się małych cząsteczek. „Czyli jesteśmy już na dobrej ścieżce do przewidywania za pomocą sztucznej inteligencji nowych leków” – powiedział Włodarski.
Skoro AlphaFold tak dobrze radzi sobie z przewidywaniem struktury białek, to czy naukowcy potrzebują w ogóle wiedzieć coś więcej na temat samego procesu zwijania białek? Tomasz Włodarski uważa, że tak.
„Dzięki temu znaleźlibyśmy odpowiedź na pytanie, jak dochodzi do nieprawidłowego zwijania się białek, które jest przyczyną np. chorób neurodegeneracyjnych. Rozumiejąc ten proces możemy go też modyfikować – czyli pomóc w prawidłowym zwijaniu” – wytłumaczył naukowiec. Przyznał też, ze naukowcom już udało się udowodnić, że AlphaFold „nie rozumie” procesu, którym tak sprawnie się posługuje. „Wiele eksperymentów pokazało, że AlphaFold nie rozumie fizyki białek. Kiedy my wiemy, że pod wpływem zmiany aminokwasu białko traci stabilną strukturę, co może doprowadzić do groźnych chorób, AlphaFold twierdzi, że tak nie jest” – powiedział naukowiec.
Proces zwijania się białek był przez wiele lat badany w probówce, czyli bez całego środowiska komórkowego. I przez dłuższy czas naukowcom wydawało się, że to jest wystarczające.
„Dopiero w ostatnich 15 latach zaczęliśmy badać, jaki wpływ na cały proces zwijania się białek ma fakt, że zachodzi ono w komórce. Okazało się, że część procesów zaobserwowanych w probówce nie zachodzi w środowisku komórkowym. I ja się tym zajmuję” – powiedział Włodarski.
W komórce białka powstają w maszynie molekularnej zwanej rybosomem.
„Widzę w swoich badaniach poszczególne etapy tego procesu. Ale tego AlphaFold nam nie pokaże, bo nie ma wystarczająco dużo danych eksperymentalnych, z których mógłby skorzystać” – wyjaśnił Włodarski. I dodał: „Widzimy też, jak zachowuje się całe środowisko komórkowe – w tym inne białka, które biorą w tym udział. Widzimy dzięki temu, jak skomplikowany jest cały ten proces”.
Niestety, nie istnieje jeszcze komputer, który pozwoliłby dokonać obliczeń z uwzględnieniem czasu, w jakim procesy zachodzą w rzeczywistości w komórce. Pierwsze symulacje przeprowadzane przez Włodarskiego 10 lat temu na największym superkomputerze w Wielkiej Brytanii zajęły 9 miesięcy. „Dziś te same obliczenia zajmują ok. dwóch miesięcy. Ale to jest ciągle długo” – podkreślił Włodarski.
Kilka lat temu naukowcy przeprowadzili eksperymenty, w których udowodnili, że rybosomy bakterii różnią się znacząco od ludzkich. „Zadałem więc pytanie badawcze, czy da się zmodyfikować rybosom bakterii, by bardziej przypominał ludzki. I się okazało, że po takiej modyfikacji białko szybciej się zwijało. Czyli możliwe jest, że w przyszłości, dzięki różnym takim modyfikacjom rybosomów będziemy mogli wydajniej produkować nowe białka. Dzięki sztucznej inteligencji nadchodzą bardzo ekscytujące czasy dla biologii, ale wciąż zostało dużo pracy dla człowieka" - podsumował.(PAP)
autorka: Urszula Kaczorowska
uka/ bar/ amac/