Testowanie „najmądrzejszego na świecie” Grok3

GRUPA AIPU WATON (1)

Wstęp

Czy uważasz, że Grok3 będzie „punktem końcowym” wstępnie wytrenowanych modeli?

Elon Musk i zespół xAI oficjalnie uruchomili najnowszą wersję Grok, Grok3, podczas transmisji na żywo. Przed tym wydarzeniem znaczna ilość powiązanych informacji, w połączeniu z całodobową promocją Muska, podniosła globalne oczekiwania wobec Grok3 do niespotykanych dotąd poziomów. Zaledwie tydzień temu Musk pewnie stwierdził podczas transmisji na żywo, komentując DeepSeek R1, „xAI ma zamiar uruchomić lepszy model AI”. Z danych prezentowanych na żywo wynika, że ​​Grok3 przewyższył wszystkie obecne główne modele w testach porównawczych dla matematyki, nauk ścisłych i programowania, a Musk twierdził nawet, że Grok3 będzie używany do zadań obliczeniowych związanych z misjami SpaceX na Marsa, przewidując „przełomy na poziomie Nagrody Nobla w ciągu trzech lat”. Jednak obecnie są to tylko twierdzenia Muska. Po uruchomieniu przetestowałem najnowszą wersję beta Grok3 i zadałem klasyczne pytanie podchwytliwe dla dużych modeli: „Który jest większy, 9,11 czy 9,9?” Niestety, bez żadnych kwalifikacji ani oznaczeń, tak zwany najmądrzejszy Grok3 nadal nie potrafił odpowiedzieć na to pytanie poprawnie. Grok3 nie potrafił dokładnie zidentyfikować znaczenia pytania.

 

Test ten szybko przyciągnął znaczną uwagę wielu przyjaciół, a co ciekawe, różne podobne testy za granicą wykazały, że Grok3 ma problemy z podstawowymi pytaniami z fizyki/matematyki, takimi jak „Która piłka spadnie pierwsza z Krzywej Wieży w Pizie?”. Dlatego też został żartobliwie nazwany „geniuszem niechętnym do odpowiadania na proste pytania”.

640

Grok3 jest dobry, ale nie jest lepszy od R1 ani o1-Pro.

Grok3 doświadczył „porażek” w wielu testach wiedzy powszechnej w praktyce. Podczas wydarzenia premierowego xAI Musk zademonstrował wykorzystanie Grok3 do analizy klas postaci i efektów z gry Path of Exile 2, w którą, jak twierdził, często grał, ale większość odpowiedzi udzielonych przez Grok3 była niepoprawna. Musk podczas transmisji na żywo nie zauważył tego oczywistego problemu.

 

Ten błąd nie tylko dostarczył zagranicznym internautom dalszych dowodów na wyśmiewanie Muska za „znalezienie substytutu” w grach, ale także wzbudził poważne obawy dotyczące niezawodności Grok3 w praktycznych zastosowaniach. W przypadku takiego „geniusza”, niezależnie od jego rzeczywistych możliwości, jego niezawodność w niezwykle złożonych scenariuszach zastosowań, takich jak zadania eksploracji Marsa, pozostaje wątpliwa.

 

Obecnie wielu testerów, którzy otrzymali dostęp do Grok3 kilka tygodni temu, a także tych, którzy wczoraj testowali możliwości modelu przez kilka godzin, wszyscy wskazują na jeden wspólny wniosek: „Grok3 jest dobry, ale nie jest lepszy od R1 lub o1-Pro”.

640 (1)

Krytyczna perspektywa „zakłócania działalności firmy Nvidia”

W oficjalnie zaprezentowanej prezentacji PowerPoint podczas premiery, Grok3 pokazał się jako „znacznie lepszy” w Chatbot Arena, ale wykorzystano w tym celu sprytne techniki graficzne: oś pionowa na tabeli wyników zawierała tylko wyniki z przedziału 1400-1300 punktów, przez co pierwotna różnica 1% w wynikach testów wydaje się w tej prezentacji wyjątkowo znacząca.

640

W rzeczywistych wynikach punktacji modelu Grok3 wyprzedza DeepSeek R1 i GPT-4.0 zaledwie o 1-2%, co odpowiada doświadczeniom wielu użytkowników w testach praktycznych, którzy nie wykazali „żadnej zauważalnej różnicy”. Grok3 przewyższa swoich następców tylko o 1%-2%.

640

Chociaż Grok3 uzyskał wyższy wynik niż wszystkie obecnie publicznie testowane modele, wielu nie traktuje tego poważnie: w końcu xAI był wcześniej krytykowany za „manipulację wynikami” w erze Grok2. Ponieważ tabela wyników karała za styl długości odpowiedzi, wyniki znacznie spadły, co skłoniło branżowych insiderów do częstej krytyki zjawiska „wysokich wyników, ale niskich umiejętności”.

 

Niezależnie od tego, czy poprzez „manipulację” tabelą wyników, czy sztuczki projektowe w ilustracjach, ujawniają one obsesję xAI i Muska na punkcie „prowadzenia stada” w zakresie możliwości modeli. Musk zapłacił wysoką cenę za te marże: podczas premiery chwalił się wykorzystaniem 200 000 procesorów graficznych H100 (podczas transmisji na żywo twierdził, że „ponad 100 000”) i osiągnął łączny czas szkolenia wynoszący 200 milionów godzin. To doprowadziło niektórych do przekonania, że ​​stanowi to kolejną znaczącą korzyść dla branży GPU i że wpływ DeepSeek na sektor jest „głupi”. Co ciekawe, niektórzy uważają, że przyszłość szkolenia modeli będzie tkwić w samej mocy obliczeniowej.

 

Jednak niektórzy internauci porównali zużycie 2000 procesorów graficznych H800 w ciągu dwóch miesięcy, aby wyprodukować DeepSeek V3, obliczając, że rzeczywiste zużycie energii treningowej Grok3 jest 263 razy większe niż V3. Różnica między DeepSeek V3, który zdobył 1402 punkty, a Grok3 wynosi nieco poniżej 100 punktów. Po opublikowaniu tych danych wielu szybko zdało sobie sprawę, że za tytułem Grok3 jako „najsilniejszego na świecie” kryje się wyraźny efekt użyteczności marginalnej — logika większych modeli generujących silniejszą wydajność zaczęła wykazywać malejące zyski.

640 (2)

Nawet przy „wysokiej punktacji, ale niskiej zdolności” Grok2 miał ogromne ilości wysokiej jakości danych własnych z platformy X (Twitter), aby wesprzeć użytkowanie. Jednak podczas treningu Grok3, xAI naturalnie napotkał „sufit”, z którym obecnie mierzy się OpenAI — brak danych treningowych premium szybko ujawnia marginalną użyteczność możliwości modelu.

 

Twórcy Grok3 i Musk prawdopodobnie jako pierwsi zrozumieli i zidentyfikowali te fakty dogłębnie, dlatego Musk nieustannie wspominał w mediach społecznościowych, że wersja, z którą użytkownicy mają obecnie do czynienia, to „jeszcze tylko beta” i że „pełna wersja zostanie wydana w nadchodzących miesiącach”. Musk przyjął rolę product managera Grok3, sugerując użytkownikom, aby przekazywali opinie na temat różnych napotkanych problemów w sekcji komentarzy. Może być najbardziej obserwowanym product managerem na Ziemi.

 

Jednak w ciągu dnia wydajność Grok3 niewątpliwie wywołała alarm u tych, którzy chcieliby polegać na „ogromnej mocy obliczeniowej”, aby trenować silniejsze duże modele: na podstawie publicznie dostępnych informacji Microsoftu, GPT-4 OpenAI ma rozmiar parametru 1,8 biliona parametrów, ponad dziesięć razy więcej niż GPT-3. Plotki sugerują, że rozmiar parametru GPT-4.5 może być jeszcze większy.

 

Wraz ze wzrostem rozmiarów parametrów modelu, koszty szkolenia również gwałtownie rosną. Wraz z obecnością Grok3, konkurenci tacy jak GPT-4.5 i inni, którzy chcą nadal „palić pieniądze”, aby osiągnąć lepszą wydajność modelu poprzez rozmiar parametru, muszą wziąć pod uwagę pułap, który jest teraz wyraźnie widoczny i zastanowić się, jak go pokonać. W tym momencie Ilya Sutskever, były główny naukowiec w OpenAI, stwierdził wcześniej w grudniu ubiegłego roku: „Wstępne szkolenie, z którym jesteśmy zaznajomieni, dobiegnie końca”, co ponownie pojawiło się w dyskusjach, skłaniając do wysiłków na rzecz znalezienia prawdziwej ścieżki szkolenia dużych modeli.

640 (3)

Pogląd Ilji wywołał alarm w branży. Dokładnie przewidział on rychłe wyczerpanie dostępnych nowych danych, co doprowadzi do sytuacji, w której nie będzie można dalej zwiększać wydajności poprzez gromadzenie danych, porównując to do wyczerpywania się paliw kopalnych. Wskazał, że „podobnie jak ropa naftowa, treści generowane przez ludzi w Internecie są ograniczonym zasobem”. Według przewidywań Sutskevera następna generacja modeli, po wstępnym szkoleniu, będzie posiadać „prawdziwą autonomię” i zdolności rozumowania „podobne do ludzkiego mózgu”.

 

W przeciwieństwie do dzisiejszych wstępnie wytrenowanych modeli, które opierają się głównie na dopasowywaniu treści (na podstawie wcześniej poznanej treści modelu), przyszłe systemy AI będą w stanie uczyć się i ustanawiać metodologie rozwiązywania problemów w sposób podobny do „myślenia” ludzkiego mózgu. Człowiek może osiągnąć podstawową biegłość w danym temacie, mając tylko podstawową literaturę fachową, podczas gdy duży model AI wymaga milionów punktów danych, aby osiągnąć tylko najbardziej podstawową skuteczność na poziomie wejściowym. Nawet jeśli sformułowanie zostanie nieznacznie zmienione, te podstawowe pytania mogą nie zostać poprawnie zrozumiane, co pokazuje, że model nie poprawił się naprawdę pod względem inteligencji: podstawowe, ale nierozwiązywalne pytania wymienione na początku artykułu stanowią wyraźny przykład tego zjawiska.

微信图片_20240614024031.jpg1

Wniosek

Jednakże, jeśli Grok3, pomijając kwestię brutalnej siły, rzeczywiście zdoła ujawnić branży, że „wstępnie wytrenowane modele zbliżają się do końca”, będzie to miało istotne implikacje dla tej dziedziny.

Być może po tym, jak szaleństwo wokół Grok3 stopniowo opadnie, będziemy świadkami większej liczby przypadków, takich jak przykład Fei-Fei Li, który „dostraja modele o wysokiej wydajności na określonym zestawie danych za jedyne 50 dolarów”, ostatecznie odkrywając prawdziwą ścieżkę do AGI.

Znajdź rozwiązanie ELV Cable

Kable sterujące

Do systemów BMS, BUS, przemysłowych, kabli pomiarowych.

System okablowania strukturalnego

Sieć i dane, Światłowód, Patch Cord, Moduły, Płyta czołowa

Przegląd wystaw i wydarzeń 2024

16-18 kwietnia 2024 r. Middle-East-Energy w Dubaju

16-18 kwietnia 2024 Securika w Moskwie

9 maja 2024 r. WYDARZENIE PREMIERY NOWYCH PRODUKTÓW I TECHNOLOGII w Szanghaju

22-25 października 2024 r. BEZPIECZEŃSTWO CHINY w Pekinie

19-20 listopada 2024 r. CONNECTED WORLD KSA


Czas publikacji: 19-02-2025