55. Intelligenza artificiale con Apple Silicon - parte 2
Update: 2025-05-19
Description
<figure class="
sqs-block-image-figure
intrinsic
">

</figure>




sqs-block-image-figure
intrinsic
">

</figure>
In questa puntata ti parlo di come fare intelligenza artificiale su Apple Silicon; dopo la puntata introduttiva in questa ti parlo della mia configurazione e dei possibili differenti set-up per utilizzare gli Apple Silicon al meglio.
Note dell’episodio
Come sempre, se ti è piaciuto quel che hai letto, ascoltato o visto e non l’hai già fatto, ti suggerisco di iscriverti alla mia newsletter.
Ti avvertirò dei nuovi articoli che pubblico (oltre ai podcast e video su YouTube) e, mensilmente, ti segnalerò articoli che ho raccolto nel corso del mese ed ho trovato interessanti.
Link
- Ollama
- Open Web UI
- Modelli LLM utilizzati maggiormente (al 7 aprile 2025):
- QWQ di Alibaba (32B parametri)
- Mistral-Small (24B parametri)
- Mistral (8B parametri)
- Mixtral (8x7B parametri)
- Llama 3.2
- Comfy UI
- msty
- Anything LLM - MLX libraries
- LM Studio (soluzione all-in-one con interfaccia grafica):
- Discussa nella Puntata 48
- Scarica modelli GGML e MLX
- Possibilità di creare un server API (compatibili con OpenAI)
- n8n
Sinossi
Comunicazioni e Aggiornamenti
- Prima di entrare nel vivo, l'episodio include alcune comunicazioni di servizio.
- Viene menzionato un "office hour" programmato, la cui data è stata spostata, presumibilmente al 17 aprile. Questo office hour dovrebbe includere slide per mostrare il funzionamento. La sua preparazione è più impegnativa rispetto a una registrazione podcast. È possibile che l'office hour diventi una puntata extra del podcast.
- L'obiettivo è mantenere una cadenza bisettimanale del podcast, aggiungendo puntate extra nelle settimane in cui non esce l'episodio ufficiale. È possibile una pausa estiva dovuta a ferie, caldo e condizioni di registrazione nello studiolo senza aria condizionata.
- Sono annunciati aggiornamenti interessanti a Notebook LM, introdotti a inizio aprile.
- Nelle note salvate di Notebook LM, è ora possibile accedere ai link che rimandano alle fonti originali da cui la nota è stata generata, funzionalità prima assente e considerata la più interessante. Questa funzionalità è disponibile per le chat recenti.
- È stata introdotta una nuova funzione di mappa mentale, anche se l'autore non la trova particolarmente interessante.
- Ora è possibile effettuare ricerche online direttamente da Notebook LM, utilizzando Google. Questo permette di cercare su un argomento, vedere i link delle fonti, e se pertinenti, caricarle nel taccuino per usarle per dialogare. Questa funzione è considerata utile perché centralizza l'attività in un unico posto.
Intelligenza Artificiale su Apple Silicon (Parte 2)
- Questa puntata è la seconda parte di una serie dedicata a come fare intelligenza artificiale su Apple Silicon, proseguendo il discorso iniziato nella puntata 46. L'argomento della puntata 46 ha avuto un buon riscontro statistico.
- Viene fatta una distinzione: la puntata non parla di Apple Intelligence (trattata nella puntata 52), ma di cosa è possibile fare con i computer Apple e l'AI, ritenuto "molto di più" rispetto all'attuale, ridotta, Apple Intelligence.
- La discussione si articola in due parti: il setup personale dell'autore e altre soluzioni disponibili, notando che il setup personale è di livello medio-alto.
Il Setup Personale
- L'hardware principale utilizzato per l'AI è un Mac Studio M1 Max con 32GB di RAM, acquistato di seconda mano appositamente per questo scopo. È gestito in modalità "headless" (senza monitor/tastiera), con accesso da remoto.
- Un Mac Mini M1 con 8GB di RAM, usato inizialmente, è stato trovato insufficiente per lavori AI significativi. Il Mac Studio è dedicato esclusivamente all'AI (e backup foto) per separare gli ambiti di lavoro.
- L'accesso avviene tramite un'interfaccia web, collegandosi dal computer di lavoro (basato su chip Intel).
- Il provider principale di LLM è Ollama, descritto come un "Docker per le intelligenze artificiali". Permette l'accesso a vari LLM e si installa su Apple Silicon.
- Inizialmente usato a riga di comando (trovato scomodo), l'autore è passato a utilizzare Open Web UI, un'interfaccia grafica web per Ollama. Open Web UI si è evoluta oltre la semplice interfaccia.
- Funzionalità di Open Web UI:
- RAG (Retrieval Augmented Generation): Permette di caricare documenti ("aree di lavoro") con cui gli LLM possono interagire e ragionare. Esempi: codice civile e procedura civile. L'interfaccia aiuta a indicizzare e dividere i documenti ("chunk").
- Interfaccia di chat standard.
- Connettività: Può collegarsi a LLM locali via Ollama, a servizi a pagamento (es. ChatGPT) o a provider multipli come Open Router.
- Ricerca Online: Integra la ricerca online per ampliare le conoscenze degli LLM. Può usare motori open source aggregatori come SearXNG (menzionato come "s e n gx") per ricercare su più fonti, gestite dall'LLM stesso.
- Personalizzazione parametri chat: Permette di modificare parametri specifici per diverse chat. Il prompt di sistema guida l'LLM in una direzione specifica (utile per contesti legali). La temperatura controlla la creatività/randomicità (solitamente abbassata per lavori di diritto o fattuali). La finestra di contesto (token) è fondamentale; i modelli Ollama di default sono limitati (2048 token), ma i modelli usati dall'autore gestiscono 10-15mila token con 32GB di RAM.
Modelli LLM Principali Utilizzati (Al 7 Aprile 2025)
- L'autore elenca i modelli che utilizza maggiormente, in ordine di preferenza:
- QWQ (32 miliardi parametri) di Alibaba: Considerato il migliore. Modello di ragionamento, lento, molto grosso (utilizza quasi tutta la RAM disponibile), quantizzato a 4 bit. Funziona bene con RAG e contenuti online in italiano. Necessita di almeno 32GB di RAM. Richiede 3-4+ minuti per risposte di medie dimensioni, specialmente con contesti ampi, ma i risultati sono buoni e i dati restano locali.
- Mistral-Small (24 miliardi parametri): Secondo modello preferito. Scrive molto bene in italiano. Buon compromesso tra risultati e tempi di risposta (sebbene non ottimi). Gestisce intorno ai 15mila token di contesto. Richiede 32GB di RAM per migliori performance. Tempi di risposta simili a Qwen con contesti ampi.
- Mistral 7B (8 miliardi parametri): Modello veloce con buon italiano. Buon compromesso, ma con limiti. Scaricabile da Hugging Face.
- Mixtral (8x7 miliardi parametri): Miscela di esperti ("Mixtral" è un gioco di parole tra Mistral e Mixture). Quantizzato a 3 bit per poter girare sull'hardware. Buon livello di italiano nelle risposte. Richiede 32GB di RAM per migliori performance. Tempi di risposta simili agli altri modelli grandi con contesti ampi.
- Questi modelli (eccetto Mistral 7B) richiedono idealmente almeno 32GB di RAM; altrimenti, parte del modello deve essere caricata in CPU, degradando le performance.
Altre Soluzioni AI su Apple Silicon
- Vengono presentate diverse soluzioni, dalla più semplice alla più complessa:
- Misty: Soluzione "all-in-one" con interfaccia grafica. Installa Ollama in background. Funzioni di chat, RAG, storia chat biforcata. Considerata meno personalizzabile di altre soluzioni. Non completamente open source.
- AnythingLLM: Interfaccia grafica con varie integrazioni (inclu
Comments
In Channel












