Ako hoces da se igras sa CPU-om za LLM inference, llama.cpp ima podrsku za AVX-512 koji je sad u svim modernim AMD procesorima (i Intel serverskim procesorima).
U principu, najveca zavisnost LLM performansi je memorijski bandwidth. Sa high-end serverskim/WS procesorima i 8-12 DDR5 kanala mozes imati nekoliko tokena/s na srednjim (72B) modelima. To je i dalje dosta sporije od GPU-a, ali ako nista drugo u teoriji cak mozes trcati i Llama 3.1 405B ako imas 512 GB RAM-a... ali sa 0.5 tokena/s :-) - Intelovi serverski procesori imaju i AMX instrukcije koje ih cine uporedivim sa EPYC procesorima ali nisam siguran da je to vredno cimanja u ovom trenutku.
Za kucnu upotrebu je trenutno najbolja opcija Apple Silicon hardver - moj laptop je MacBook Pro sa 128 GB RAM-a i M3 Max procesorom, i sa njim mogu da trcim Mistral Large 2 (123B) sa ~4 tokena/s.
Alternativna opcija, ako bas hoces kucnu varijantu je da nabavis 8 RTX 3090 grafickih i neku serversku plocu (mozda neki EPYC) - ako nabavis ES/QS CPU sa Ebay-a i nadjes 3090-tke za OK pare, imas gerila AI masinu sa 192 GB VRAM-a na kojoj mozes da teras https://github.com/vllm-project/vllm i izvuces solidan paralelizam. Mislim da cak u Linuxu mozes da osposobis NVLink izmedju 4 para kartica.
Takva masina moze da tera Mistral Large 2 u Q8 ili DeepSeek Coder V2.5 Q4 sa velikim kontekstom u VRAM-u i par destina tokena/s - evo primera: https://www.ahmadosman.com/blo...g-ai-from-the-basement-part-i/
Prednost GPU varijante u odnosu na Apple hardver je sto sa 4x ili 8x 3090 mozes cak i da radis ogranicen fine tuning... ali za to mislim da je daleko isplativije da zakupis GPU kutije na runpod.io ili vast.ai i mnogo prę zavrsis tuning
http://www.digicortex.net/node/1 Videos: http://www.digicortex.net/node/17 Gallery: http://www.digicortex.net/node/25
PowerMonkey - Redyce CPU Power Waste and gain performance! - https://github.com/psyq321/PowerMonkey