Testowanie „najmądrzejszych na świecie” Grok3

Aipu Waton Group (1)

Wstęp

Czy uważasz, że Grok3 będzie „punktem końcowym” modeli wcześniej wyszkolonych?

Elon Musk i zespół XAI oficjalnie wprowadzili najnowszą wersję Grok, Grok3 podczas transmisji na żywo. Przed tym wydarzeniem znaczna ilość powiązanych informacji, w połączeniu z promocyjnym szumem Muska, wzbudziło globalne oczekiwania wobec GROK3 do bezprecedensowych poziomów. Zaledwie tydzień temu Musk z pewnością stwierdził podczas transmisji na żywo podczas komentowania Deepseek R1: „XAI ma wkrótce uruchomić lepszy model AI”. Na podstawie przedstawionych danych GROK3 podobno przekroczył wszystkie obecne modele głównego nurtu w testach testowych, nauk ścisłych i programowania, a Musk twierdzi, że GROK3 będzie używany do zadań obliczeniowych związanych z misjami Marsa SpaceX, przewidując „przełom na poziomie Nobel na poziomie Nobla w ciągu trzech lat”. Są to jednak obecnie tylko twierdzenia Muska. Po uruchomieniu przetestowałem najnowszą wersję wersji Grok3 beta i postawiłem klasyczne pytanie dotyczące dużych modeli: „Który jest większy, 9.11 lub 9.9?” Niestety, bez żadnych kwalifikatorów lub oznaczeń, tak zwany najmądrzejszy Grok3 nadal nie mógł odpowiedzieć na to pytanie. Grok3 nie udało się dokładnie zidentyfikować znaczenia pytania.

 

Ten test szybko zwrócił znaczną uwagę wielu przyjaciół i przypadkowo różne podobne testy za granicą wykazały, że Grok3 zmaga się z podstawowymi pytaniami fizyki/matematyki, takimi jak „Która piłka spadnie najpierw z pochylonej wieży Pizy?” W ten sposób został humorystycznie oznaczony jako „geniusz, który nie chce odpowiedzieć na proste pytania”.

640

Grok3 jest dobry, ale nie jest lepszy niż R1 lub O1-PRO.

Grok3 doświadczył „niepowodzeń” w wielu testach powszechnej wiedzy w praktyce. Podczas premiery XAI Musk zademonstrował przy użyciu GROK3 do analizy klas postaci i efektów ze ścieżki gier Exile 2, które, jak twierdził, często gra, ale większość odpowiedzi udzielonych przez GROK3 była nieprawidłowa. Piżmo podczas transmisji na żywo nie zauważył tego oczywistego problemu.

 

Ten błąd nie tylko dostarczył dalszych dowodów dla zagranicznych internautów kpiących na „znalezieniu substytutu” w grach, ale także wywołał znaczące obawy dotyczące niezawodności GROK3 w praktycznych zastosowaniach. W przypadku takiego „geniuszu”, niezależnie od jego faktycznych możliwości, jego niezawodność w niezwykle złożonych scenariuszach aplikacyjnych, takich jak zadania eksploracyjne Marsa, pozostaje wątpliwości.

 

Obecnie wielu testerów, którzy otrzymali dostęp do Grok3 tygodnie temu, a ci, którzy właśnie przetestowali możliwości modelu przez kilka godzin wczoraj, wszystkie wskazują na wspólny wniosek: „Grok3 jest dobry, ale nie jest lepszy niż R1 lub O1-PRO”.

640 (1)

Krytyczne spojrzenie na „zakłócenie Nvidii”

W oficjalnie zaprezentowanym PPT podczas wydania GROK3 okazało się „daleko przed” na arenie chatbot, ale ta sprytnie używana techniki graficzne: osi pionowy na tablicy liderów wynosi tylko w zakresie wyników 1400-1300, co czyni pierwotną różnicę 1% w wynikach testu, wydaje się wyjątkowo znacząca w tej prezentacji.

640

W rzeczywistych wynikach oceny modelu GROK3 jest tylko 1-2% przed Deepseek R1 i GPT-4.0, co odpowiada doświadczeniom wielu użytkowników w praktycznych testach, które nie wykazały „bez zauważalnej różnicy”. Grok3 przekracza swoje następcy o 1%-2%.

640

Chociaż GROK3 uzyskał wyższe wyniki niż wszystkie obecnie testowane publicznie modele, wielu nie traktuje tego poważnie: w końcu XAI został skrytykowany za „manipulację wynikami” w erze GROK2. Gdy liderowy styl długości odpowiedzi ukarał, wyniki znacznie się zmniejszyły, prowadząc osoby z branży do często krytykowania zjawiska „wysokiego punktacji, ale niskiej zdolności”.

 

Niezależnie od tego, czy poprzez „manipulację”, czy sztuczki projektowe w ilustracjach, ujawniają obsesję XAI i Muska na punkcie pojęcia „prowadzenia paczki” w możliwościach modelowych. Musk zapłacił wysoką cenę za te margines: podczas premiery chwalił się używaniem 200 000 GPU H100 (twierdząc, że „ponad 100 000” podczas transmisji na żywo) i osiągając całkowity czas szkolenia wynoszący 200 milionów godzin. Doprowadziło to niektórych do przekonania, że ​​stanowi kolejny znaczący dobrodziejstwo dla branży GPU i rozważyć wpływ Deepseek na sektor za „głupi”. W szczególności niektórzy uważają, że sama moc obliczeniowa będzie przyszłością treningu modelowego.

 

Jednak niektórzy internauci porównali zużycie 2000 GPU H800 w ciągu dwóch miesięcy w celu wytworzenia Deepseek V3, obliczając faktyczne zużycie energii treningowej GROK3 jest 263 razy większe niż V3. Różnica między Deepseek V3, która zdobyła 1402 punktów, a Grok3 wynosi nieco mniej niż 100 punktów. Po wydaniu tych danych wielu szybko zdało sobie sprawę, że za tytułem Grok3 jako „najsilniejszy na świecie” leży wyraźny marginalny efekt użyteczności - logika większych modeli generujących silniejszą wydajność zaczęła wykazywać malejące zwroty.

640 (2)

Nawet przy „wysokiej punktacji, ale niskiej zdolności” GROK2 miał ogromne ilości wysokiej jakości danych pierwszej partii z platformy X (Twitter) do obsługi użytkowania. Jednak podczas szkolenia GROK3 XAI naturalnie napotkał „sufit”, z którym obecnie stoi Openai - brak danych treningowych premium szybko ujawnia krańcową użyteczność możliwości modelu.

 

Twórcy Grok3 i Musk są prawdopodobnie pierwszymi, którzy głęboko rozumieją i zidentyfikują te fakty, dlatego Musk nieustannie wspominał w mediach społecznościowych, o których użytkownicy wersji doświadczają teraz „Still Just the Beta” i że „pełna wersja zostanie wydana w nadchodzących miesiącach”. MUSK podjął rolę menedżera produktu GROK3, sugerując, że użytkownicy przekazują informacje zwrotne na temat różnych problemów w sekcji komentarzy.

 

Jednak w ciągu jednego dnia wydajność Grok3 niewątpliwie podniosła alarmy dla osób, które mają nadzieję polegać na „masywnym mięśniu obliczeniowym” w celu szkolenia silniejszych dużych modeli: w oparciu o publicznie dostępne informacje Microsoft, GPT-4 Openai ma parametr 1,8 biliona parametrów, ponad dziesięć razy więcej niż GPT-3. Plotki sugerują, że wielkość parametrów GPT-4.5 może być jeszcze większa.

 

W miarę wzrostu wielkości parametrów modelu koszty szkolenia również gwałtownie wzrosną. Dzięki obecności Grok3 pretendenci tacy jak GPT-4.5 i inni, którzy chcą kontynuować „spalanie pieniędzy”, aby osiągnąć lepszą wydajność modelu poprzez wielkość parametrów, muszą rozważyć sufit, który jest teraz wyraźnie widoczny i zastanawiać się, jak go przezwyciężyć. W tej chwili Ilya Sutskever, były główny naukowiec w Openai, wcześniej stwierdził w grudniu zeszłego roku: „Przed trening, który znamy, dobiegnie końca”, który pojawił się w dyskusjach, co skłoniło wysiłki na rzecz znalezienia prawdziwej ścieżki szkolenia dużych modeli.

640 (3)

Punkt widzenia Ilyi zabrzmiał alarm w branży. Dokładnie przewidział nieuchronne wyczerpanie dostępnych nowych danych, co prowadzi do sytuacji, w której wydajność nie może być nadal zwiększona poprzez pozyskiwanie danych, porównując je do wyczerpania paliw kopalnych. Wskazał, że „podobnie jak olej, treści generowane przez człowieka w Internecie są ograniczonym zasobem”. W prognozach Sutskever nowa generacja modeli, po szkoleniu po spre, będzie mieć „prawdziwą autonomię” i możliwości rozumowania „podobne do ludzkiego mózgu”.

 

W przeciwieństwie do dzisiejszych wstępnie wyszkolonych modeli, które polegają przede wszystkim na dopasowywaniu treści (na podstawie wcześniej wyuczonej treści modelowej), przyszłe systemy AI będą mogły uczyć się i ustalić metodologie rozwiązywania problemów w sposób podobny do „myślenia” ludzkiego mózgu. Człowiek może osiągnąć podstawową biegłość w temacie z podstawową literaturą zawodową, podczas gdy duży model AI wymaga milionów punktów danych, aby osiągnąć najbardziej podstawową skuteczność podstawową. Nawet gdy sformułowanie jest nieznacznie zmieniane, te fundamentalne pytania mogą nie być poprawnie zrozumiane, ilustrując, że model nie poprawił się w inteligencji: podstawowe, ale nierozwiązywalne pytania wymienione na początku artykułu stanowią wyraźny przykład tego zjawiska.

微信图片 _20240614024031.jpg1

Wniosek

Jednak poza brutalną siłą, gdyby Grok3 rzeczywiście udało się ujawnić branży, że „modele wstępnie wyszkolone zbliżają się do ich końca”, ma to znaczące implikacje dla tej dziedziny.

Być może po szaleństwie otaczającym GROK3 stopniowo ustąpimy, będziemy świadkami więcej przypadków, takich jak przykład Fei-Fei Li, dotyczących „dostrajania modeli o wysokiej wydajności na określonym zestawie danych za jedyne 50 USD”, ostatecznie odkrywając prawdziwą ścieżkę do AGI.

Znajdź roztwór elv kabla

Kable kontrolne

Dla BMS, Bus, przemysłowy, oprzyrządowania.

Strukturowany system okablowania

Sieć i dane, kabel światłowodowy, sznur łaty, moduły, płyta czołowa

2024 Przegląd wystaw i wydarzeń

16 kwietnia-8, 2024 Energia Bliskiego Wschodu w Dubaju

16 kwietnia do 8, 2024 Securika w Moskwie

9 maja, 2024 Nowe wydarzenie Products & Technologies Wprowadzenie w Szanghaju

22 października-25., 2024 Bezpieczeństwo Chiny w Pekinie

19 listopada, 2024 Connected World KSA


Czas po: 19-2025 lutego