DiscoverAvvocati e Mac: Compendium55. Intelligenza artificiale con Apple Silicon - parte 2
55. Intelligenza artificiale con Apple Silicon - parte 2

55. Intelligenza artificiale con Apple Silicon - parte 2

Update: 2025-05-19
Share

Description

<figure class="
sqs-block-image-figure
intrinsic
">


























</figure>

























In questa puntata ti parlo di come fare intelligenza artificiale su Apple Silicon; dopo la puntata introduttiva in questa ti parlo della mia configurazione e dei possibili differenti set-up per utilizzare gli Apple Silicon al meglio.



Note dell’episodio


Come sempre, se ti è piaciuto quel che hai letto, ascoltato o visto e non l’hai già fatto, ti suggerisco di iscriverti alla mia newsletter.
Ti avvertirò dei nuovi articoli che pubblico (oltre ai podcast e video su YouTube) e, mensilmente, ti segnalerò articoli che ho raccolto nel corso del mese ed ho trovato interessanti.


Link



Sinossi


Comunicazioni e Aggiornamenti



  • Prima di entrare nel vivo, l'episodio include alcune comunicazioni di servizio.

  • Viene menzionato un "office hour" programmato, la cui data è stata spostata, presumibilmente al 17 aprile. Questo office hour dovrebbe includere slide per mostrare il funzionamento. La sua preparazione è più impegnativa rispetto a una registrazione podcast. È possibile che l'office hour diventi una puntata extra del podcast.

  • L'obiettivo è mantenere una cadenza bisettimanale del podcast, aggiungendo puntate extra nelle settimane in cui non esce l'episodio ufficiale. È possibile una pausa estiva dovuta a ferie, caldo e condizioni di registrazione nello studiolo senza aria condizionata.

  • Sono annunciati aggiornamenti interessanti a Notebook LM, introdotti a inizio aprile.

  • Nelle note salvate di Notebook LM, è ora possibile accedere ai link che rimandano alle fonti originali da cui la nota è stata generata, funzionalità prima assente e considerata la più interessante. Questa funzionalità è disponibile per le chat recenti.

  • È stata introdotta una nuova funzione di mappa mentale, anche se l'autore non la trova particolarmente interessante.

  • Ora è possibile effettuare ricerche online direttamente da Notebook LM, utilizzando Google. Questo permette di cercare su un argomento, vedere i link delle fonti, e se pertinenti, caricarle nel taccuino per usarle per dialogare. Questa funzione è considerata utile perché centralizza l'attività in un unico posto.


Intelligenza Artificiale su Apple Silicon (Parte 2)



  • Questa puntata è la seconda parte di una serie dedicata a come fare intelligenza artificiale su Apple Silicon, proseguendo il discorso iniziato nella puntata 46. L'argomento della puntata 46 ha avuto un buon riscontro statistico.

  • Viene fatta una distinzione: la puntata non parla di Apple Intelligence (trattata nella puntata 52), ma di cosa è possibile fare con i computer Apple e l'AI, ritenuto "molto di più" rispetto all'attuale, ridotta, Apple Intelligence.

  • La discussione si articola in due parti: il setup personale dell'autore e altre soluzioni disponibili, notando che il setup personale è di livello medio-alto.


Il Setup Personale



  • L'hardware principale utilizzato per l'AI è un Mac Studio M1 Max con 32GB di RAM, acquistato di seconda mano appositamente per questo scopo. È gestito in modalità "headless" (senza monitor/tastiera), con accesso da remoto.

  • Un Mac Mini M1 con 8GB di RAM, usato inizialmente, è stato trovato insufficiente per lavori AI significativi. Il Mac Studio è dedicato esclusivamente all'AI (e backup foto) per separare gli ambiti di lavoro.

  • L'accesso avviene tramite un'interfaccia web, collegandosi dal computer di lavoro (basato su chip Intel).

  • Il provider principale di LLM è Ollama, descritto come un "Docker per le intelligenze artificiali". Permette l'accesso a vari LLM e si installa su Apple Silicon.

  • Inizialmente usato a riga di comando (trovato scomodo), l'autore è passato a utilizzare Open Web UI, un'interfaccia grafica web per Ollama. Open Web UI si è evoluta oltre la semplice interfaccia.

  • Funzionalità di Open Web UI:

    • RAG (Retrieval Augmented Generation): Permette di caricare documenti ("aree di lavoro") con cui gli LLM possono interagire e ragionare. Esempi: codice civile e procedura civile. L'interfaccia aiuta a indicizzare e dividere i documenti ("chunk").

    • Interfaccia di chat standard.

    • Connettività: Può collegarsi a LLM locali via Ollama, a servizi a pagamento (es. ChatGPT) o a provider multipli come Open Router.

    • Ricerca Online: Integra la ricerca online per ampliare le conoscenze degli LLM. Può usare motori open source aggregatori come SearXNG (menzionato come "s e n gx") per ricercare su più fonti, gestite dall'LLM stesso.

    • Personalizzazione parametri chat: Permette di modificare parametri specifici per diverse chat. Il prompt di sistema guida l'LLM in una direzione specifica (utile per contesti legali). La temperatura controlla la creatività/randomicità (solitamente abbassata per lavori di diritto o fattuali). La finestra di contesto (token) è fondamentale; i modelli Ollama di default sono limitati (2048 token), ma i modelli usati dall'autore gestiscono 10-15mila token con 32GB di RAM.




Modelli LLM Principali Utilizzati (Al 7 Aprile 2025)



  • L'autore elenca i modelli che utilizza maggiormente, in ordine di preferenza:

    • QWQ (32 miliardi parametri) di Alibaba: Considerato il migliore. Modello di ragionamento, lento, molto grosso (utilizza quasi tutta la RAM disponibile), quantizzato a 4 bit. Funziona bene con RAG e contenuti online in italiano. Necessita di almeno 32GB di RAM. Richiede 3-4+ minuti per risposte di medie dimensioni, specialmente con contesti ampi, ma i risultati sono buoni e i dati restano locali.

    • Mistral-Small (24 miliardi parametri): Secondo modello preferito. Scrive molto bene in italiano. Buon compromesso tra risultati e tempi di risposta (sebbene non ottimi). Gestisce intorno ai 15mila token di contesto. Richiede 32GB di RAM per migliori performance. Tempi di risposta simili a Qwen con contesti ampi.

    • Mistral 7B (8 miliardi parametri): Modello veloce con buon italiano. Buon compromesso, ma con limiti. Scaricabile da Hugging Face.

    • Mixtral (8x7 miliardi parametri): Miscela di esperti ("Mixtral" è un gioco di parole tra Mistral e Mixture). Quantizzato a 3 bit per poter girare sull'hardware. Buon livello di italiano nelle risposte. Richiede 32GB di RAM per migliori performance. Tempi di risposta simili agli altri modelli grandi con contesti ampi.



  • Questi modelli (eccetto Mistral 7B) richiedono idealmente almeno 32GB di RAM; altrimenti, parte del modello deve essere caricata in CPU, degradando le performance.


Altre Soluzioni AI su Apple Silicon



  • Vengono presentate diverse soluzioni, dalla più semplice alla più complessa:

    • Misty: Soluzione "all-in-one" con interfaccia grafica. Installa Ollama in background. Funzioni di chat, RAG, storia chat biforcata. Considerata meno personalizzabile di altre soluzioni. Non completamente open source.

    • AnythingLLM: Interfaccia grafica con varie integrazioni (inclu
Comments 
00:00
00:00
x

0.5x

0.8x

1.0x

1.25x

1.5x

2.0x

3.0x

Sleep Timer

Off

End of Episode

5 Minutes

10 Minutes

15 Minutes

30 Minutes

45 Minutes

60 Minutes

120 Minutes

55. Intelligenza artificiale con Apple Silicon - parte 2

55. Intelligenza artificiale con Apple Silicon - parte 2

Filippo Strozzi