elitemadzone.org - AI: pomoć

Ivan Dimkovic

Administrator
Član broj: 13
Poruke: 16744
*.dynamic.mbb.yettel.rs.

+7192 Profil

^{23.10.2024. u 09:32 - pre 4 dana i 21h}

@Shadowed,

Ako hoces da se igras sa CPU-om za LLM inference, llama.cpp ima podrsku za AVX-512 koji je sad u svim modernim AMD procesorima (i Intel serverskim procesorima).

U principu, najveca zavisnost LLM performansi je memorijski bandwidth. Sa high-end serverskim/WS procesorima i 8-12 DDR5 kanala mozes imati nekoliko tokena/s na srednjim (72B) modelima. To je i dalje dosta sporije od GPU-a, ali ako nista drugo u teoriji cak mozes trcati i Llama 3.1 405B ako imas 512 GB RAM-a... ali sa 0.5 tokena/s :-) - Intelovi serverski procesori imaju i AMX instrukcije koje ih cine uporedivim sa EPYC procesorima ali nisam siguran da je to vredno cimanja u ovom trenutku.

Za kucnu upotrebu je trenutno najbolja opcija Apple Silicon hardver - moj laptop je MacBook Pro sa 128 GB RAM-a i M3 Max procesorom, i sa njim mogu da trcim Mistral Large 2 (123B) sa ~4 tokena/s.

Alternativna opcija, ako bas hoces kucnu varijantu je da nabavis 8 RTX 3090 grafickih i neku serversku plocu (mozda neki EPYC) - ako nabavis ES/QS CPU sa Ebay-a i nadjes 3090-tke za OK pare, imas gerila AI masinu sa 192 GB VRAM-a na kojoj mozes da teras https://github.com/vllm-project/vllm i izvuces solidan paralelizam. Mislim da cak u Linuxu mozes da osposobis NVLink izmedju 4 para kartica.

Takva masina moze da tera Mistral Large 2 u Q8 ili DeepSeek Coder V2.5 Q4 sa velikim kontekstom u VRAM-u i par destina tokena/s - evo primera: https://www.ahmadosman.com/blo...g-ai-from-the-basement-part-i/

Prednost GPU varijante u odnosu na Apple hardver je sto sa 4x ili 8x 3090 mozes cak i da radis ogranicen fine tuning... ali za to mislim da je daleko isplativije da zakupis GPU kutije na runpod.io ili vast.ai i mnogo prę zavrsis tuning

DigiCortex (ex. SpikeFun) - Cortical Neural Network Simulator:
http://www.digicortex.net/node/1 Videos: http://www.digicortex.net/node/17 Gallery: http://www.digicortex.net/node/25
PowerMonkey - Redyce CPU Power Waste and gain performance! - https://github.com/psyq321/PowerMonkey

Odgovor na temu

Shadowed
Vojvodina

Član broj: 649
Poruke: 12873

+4789 Profil

Re: AI: pomoć - ili opasnost?

^{23.10.2024. u 09:58 - pre 4 dana i 21h}

Hocu kucnu varijantu i necu nista da kupujem

Imam Ryzen 7 5800X i 64GB RAM-a. Ako bude moglo - super. Ako ne, jbg ¯\_(ツ)_/¯

Nebojsa Milanovic:
Što se tiče Trumpa, smatram ga vrhunskim predsednikom i voleo bih da živim u državi na čijem je on čelu.
Rusija ne laže, ne vodi osvajačke ratove
Trump je svetla tačka u USA blatu.

Odgovor na temu

Ivan Dimkovic

Administrator
Član broj: 13
Poruke: 16744
*.dynamic.mbb.yettel.rs.

+7192 Profil

Re: AI: pomoć - ili opasnost?

^{23.10.2024. u 10:16 - pre 4 dana i 21h}

Moze sto ne bi moglo, sasvim sigurno mozes da trcis manje modele sa llama.cpp

Najlakse ti je da skines LM Studio, i onda direktno skines model sa HuggingFace-a i poteras iz GUI-ja, posto LM studio ima jednostavan UI, plus omogucava i da uploadujes dokumente za analizu (tipa PDF fajlove itd.).

Startuj ovde: https://huggingface.co/spaces/...aderboard/open_llm_leaderboard - ogranicni velicinu modela na, npr, 8B (samo nemoj od 8B modela ocekivati performanse na nivou GPT-4)

Recimo ovaj: https://huggingface.co/VAGOsol...a-3.1-SauerkrautLM-8b-Instruct - to je neki fine-tune Llama 3.1 8B Instruct modela, sa nesto poboljsanim performansama (mada je tu uvek pitanje koliko je kontaminiran korpus za trening, dosta tih HF modela su optimizovani da pobede na testovima)

Onda, ides na "quantizations" - https://huggingface.co/models?...a-3.1-SauerkrautLM-8b-Instruct kako bi skinuo verziju modela sa redukovanom memorijom

Odaberi kvantizacije od Bartowskog - https://huggingface.co/bartows...-SauerkrautLM-8b-Instruct-GGUF (Bartowski ima jako puno kvantizovanih modela) - odaberi npr. Q4_K_M ili Q4_K_L sto su 4-bitne kvantizacije i klikni na "Use this model" pa "LM Studio".

LM Studio ce ga svuci i obicno je OK trcati ga sa default parametrima. Alternativa je da sam skines i kompajliras llama.cpp i dovuces kvantizovani model (npr. GGUF) i poteras iz komandne linije. U principu sve isto, samo sto ces sam da skines GGUF fajlove.

Imas isto i ollama (https://ollama.com) koji je "wrapper" za llama.cpp, mada ne vidim poentu (LM Studio bar ima GUI).

Sa 64 GB mozes da probas i vece modele, vidi na leaderboard-u sta mozes da spakujes u 30-40 GB RAM-a.

--

Sto se kvantizacije tice, modeli se treniraju sa 16-bitnom floating point preciznoscu, sto znaci 2 bajta po parametru. Za inference je u ogromnoj vecini slucajeva to potpuno nepotrebno, Q8 je skoro-pa-lossless a cak i 4-bitna kvantizacija daje dobre rezultate. Ispod 4 bita stvari postaju vidno losije. Neki 'sweet spot' ako nemas dovoljno memorije za Q8 je 5-6 bita po parametru, ali i 4 bita obicno radi posao.

LLM zahteva, naravno, da parametri budu ucitani u memoriju (mada u teoriji mozes da mmap-ujes i sa diska, ako si spreman da cekas jako puno vremena) + memorija za konteks (sto duzi kontekst = vise potrebne memorije).

Odgovor na temu

mjanjic
Šikagou

Član broj: 187539
Poruke: 2874

+725 Profil

Re: AI: pomoć - ili opasnost?

^{23.10.2024. u 17:27 - pre 4 dana i 14h}

Mislim da je gubljenje vremena praviti neke "transformer" LLM i šta već na skromnoj opremi, bolje je baviti se neki specifičnim stvarima koje ne zahtevaju monstruozan hardver, ali raditi na optimizacijama, obradi/propremi podataka tako da budu pogodni za treniranje NN, itd.
Recimo, ovakve stvari su i dalje aktuelne: https://siboehm.com/articles/22/Fast-MMM-on-CPU

Hardver postaje eksponencijalno skuplji za linearno povećanje performansi, pa će bilo kakva unapređenja u algoritmima biti značajnija od ovih "inovacija" gde je suština pustiti neke podatke da se "istrenira" NN koja će raditi bilo nešto usko specifično ili opšteg tipa kao kod nekih LLM.

Meni je daleko razumnije ono što radi DeepMind, koji svoju "general purpose NN" posebno trenira za neke specijalne probleme, od računarskih igara preko logičkih igara na tabli do problema iz molekularne biologije (npr. savijanje proteina: https://deepmind.google/technologies/alphafold/).

Blessed are those who can laugh at themselves, for they shall never cease to be amused.

Odgovor na temu