
Cosa è Generative AI.
L’IA generativa è un tipo di tecnologia di intelligenza artificiale in grado di produrre vari tipi di contenuti, inclusi testo, immagini, audio e dati sintetici. Il recente fermento intorno all’IA generativa è stato guidato dalla semplicità delle nuove interfacce utente per la creazione di testo, grafica e video di alta qualità in pochi secondi.
La tecnologia, va notato, non è nuova di zecca. L’IA generativa è stata introdotta negli anni ’60 nei chatbot. Ma qualcosa è cambiato dal 2014, con l’introduzione delle reti generative avversarie, o GAN (un tipo di algoritmo di apprendimento automatico), con cui l’IA generativa è in grado di creare immagini, video e audio convincenti e autentici di persone reali.
Da un lato, questa nuova funzionalità ha aperto opportunità che includono un migliore doppiaggio dei film e un ricco contenuto educativo. Ha anche sbloccato le preoccupazioni sui deepfake (immagini o video falsificati digitalmente) e dannosi attacchi di sicurezza informatica alle aziende, comprese richieste nefaste che imitano realisticamente il capo di un dipendente (che quindi ingannano facilmente).
Due ulteriori progressi recenti che verranno discussi più dettagliatamente di seguito hanno svolto un ruolo fondamentale nel mainstreaming dell’IA generativa: i trasformers model e i modelli linguistici rivoluzionari. I trasformers model sono un tipo di apprendimento automatico che ha permesso ai ricercatori di addestrare modelli sempre più grandi senza dover etichettare tutti i dati in anticipo. Nuovi modelli potrebbero così essere addestrati su miliardi di pagine di testo, ottenendo risposte più approfondite. Inoltre, i trasformers hanno sbloccato una nuova nozione chiamata “attenzione” che ha consentito ai modelli di tracciare le connessioni tra le parole attraverso pagine, capitoli e libri piuttosto che solo in singole frasi. E non solo parole: i Transformer potrebbero anche usare la loro capacità di tracciare le connessioni per analizzare codice, proteine, sostanze chimiche e DNA.
I rapidi progressi nei cosiddetti modelli di linguaggio di grandi dimensioni (LLM), ovvero modelli con miliardi o addirittura trilioni di parametri, hanno aperto una nuova era in cui i modelli di intelligenza artificiale generativa possono scrivere testi accattivanti, dipingere immagini fotorealistiche e persino creare immagini in qualche modo divertenti sitcom al volo. Inoltre, le innovazioni nell’IA multimodale consentono ai team di generare contenuti su più tipi di media, inclusi testo, grafica e video. Questa è la base per strumenti come Dall-E (OpenAI) che creano automaticamente immagini da una descrizione di testo o generano didascalie di testo da immagini.
Nonostante queste scoperte, siamo ancora agli inizi dell’utilizzo dell’IA generativa per creare testo leggibile e grafica stilizzata fotorealistica. Le prime implementazioni hanno avuto problemi con accuratezza e pregiudizi, oltre ad essere inclini ad “allucinazioni “invenzioni creative” e a restituire risposte strane e sbagliate. Tuttavia, i progressi compiuti finora indicano che le capacità intrinseche di questo tipo di intelligenza artificiale potrebbero cambiare radicalmente il business. Andando avanti, questa tecnologia potrebbe aiutare a scrivere codice, progettare nuovi farmaci, sviluppare prodotti, riprogettare i processi aziendali e trasformare le catene di approvvigionamento.
Come funziona l’IA generativa? Cosa è Generative AI ?
L’IA generativa inizia con un prompt che potrebbe essere sotto forma di testo, immagine, video, disegno, note musicali o qualsiasi input che il sistema di intelligenza artificiale può elaborare. Vari algoritmi AI restituiscono quindi nuovi contenuti in risposta al prompt. Il contenuto può includere saggi, soluzioni a problemi o falsi realistici creati da immagini o audio di una persona.
Le prime versioni dell’IA generativa richiedevano l’invio di dati tramite un’API o un processo altrimenti complicato. Gli sviluppatori hanno dovuto familiarizzare con strumenti speciali e scrivere applicazioni utilizzando linguaggi come Python.
Ora, i pionieri dell’IA generativa stanno sviluppando esperienze utente migliori che consentono di descrivere una richiesta in un linguaggio semplice. Dopo una risposta iniziale, si può anche personalizzare i risultati con un feedback sullo stile, il tono e altri elementi che si desidera che il contenuto generato rifletta.
Modelli di intelligenza artificiale generativa (Generative AI )
I modelli di intelligenza artificiale generativa combinano vari algoritmi di intelligenza artificiale per rappresentare ed elaborare i contenuti. Ad esempio, per generare testo, varie tecniche di elaborazione del linguaggio naturale trasformano caratteri grezzi (ad es. lettere, punteggiatura e parole) in frasi, parti del discorso, entità e azioni, che sono rappresentate come vettori utilizzando più tecniche di codifica. Allo stesso modo, le immagini si trasformano in vari elementi visivi, anch’essi espressi come vettori. Un avvertimento è che queste tecniche possono anche codificare i pregiudizi, il razzismo, l’inganno e “gonfiare” i contenuti nei dati di addestramento.
Una volta che gli sviluppatori decidono un modo per rappresentare il mondo, applicano una particolare rete neurale per generare nuovi contenuti in risposta a una query o a un prompt. Tecniche come GAN e autocodificatori variazionali (VAE variational autoencoder) – reti neurali con decodificatore e codificatore – sono adatte per generare volti umani realistici, dati sintetici per l’addestramento dell’IA o persino facsimili di particolari esseri umani.
I recenti progressi nei trasformers come Bidirectional Encoder Representations from Transformers (BERT) di Google, GPT di OpenAI e Google AlphaFold hanno anche portato a reti neurali in grado non solo di codificare lingua, immagini e proteine, ma anche di generare nuovi contenuti.
Cosa sono Dall-E, ChatGPT e Bard?
ChatGPT, Dall-E e Bard sono popolari interfacce AI generative.
Dall-E. Addestrato su un ampio set di dati di immagini e le relative descrizioni testuali, Dall-E è un esempio di applicazione AI multimodale che identifica le connessioni tra più media, come visione, testo e audio. In questo caso, collega il significato delle parole agli elementi visivi. È stato creato utilizzando l’implementazione GPT di OpenAI nel 2021. Dall-E 2, una seconda versione più capace, è stata rilasciata nel 2022. Consente agli utenti di generare immagini in più stili guidati dai prompt degli utenti.
ChatGPT. Il chatbot basato sull’intelligenza artificiale che ha preso d’assalto il mondo nel novembre 2022 è stato costruito sull’implementazione GPT-3.5 di OpenAI. OpenAI ha fornito un modo per interagire e mettere a punto le risposte di testo tramite un’interfaccia di chat con feedback interattivo. Le versioni precedenti di GPT erano accessibili solo tramite un’API. GPT-4 è stato rilasciato il 14 marzo 2023. ChatGPT incorpora la cronologia della sua conversazione con un utente nei suoi risultati, simulando una conversazione reale. Dopo l’incredibile popolarità della nuova interfaccia GPT, Microsoft ha annunciato un nuovo significativo investimento in OpenAI e ha integrato una versione di GPT nel suo motore di ricerca Bing.
Google Bard. Google è stato un altro dei primi leader nelle pionieristiche tecniche di intelligenza artificiale dei trasformers per l’elaborazione di linguaggi, proteine e altri tipi di contenuti. Ha reso disponibili alcuni di questi modelli per i ricercatori. Tuttavia, non ha mai rilasciato un’interfaccia pubblica per questi modelli. La decisione di Microsoft di implementare GPT in Bing ha spinto Google a lanciare sul mercato un chatbot rivolto al pubblico, Google Bard, costruito su una versione leggera della sua famiglia LaMDA di modelli di linguaggio di grandi dimensioni. Google ha subito una significativa perdita del prezzo delle azioni in seguito al debutto affrettato di Bard dopo che il modello linguistico ha erroneamente affermato che il telescopio Webb è stato il primo a scoprire un pianeta in un sistema solare straniero. Nel frattempo, anche le implementazioni di Microsoft e ChatGPT hanno perso credibilità nelle loro prime uscite a causa di risultati imprecisi e commettendo una serie di errori. Da allora Google ha svelato una nuova versione di Bard basata sul suo LLM più avanzato, PaLM 2, che consente a Bard di essere più efficiente e visivo nella sua risposta alle domande degli utenti.
Quali sono i casi d’uso per l’IA generativa (Generative AI)?
L’IA generativa può essere applicata in vari casi d’uso per generare praticamente qualsiasi tipo di contenuto. La tecnologia sta diventando più accessibile agli utenti di tutti i tipi grazie a innovazioni all’avanguardia come GPT che possono essere ottimizzate per diverse applicazioni. Alcuni dei casi d’uso per l’IA generativa includono quanto segue:
- Implementazione di chatbot per il servizio clienti e il supporto tecnico.
- Distribuzione di deepfake per imitare persone o anche individui specifici.
- Miglioramento del doppiaggio per film e contenuti educativi in diverse lingue.
- Scrivere risposte e-mail, profili di appuntamenti, curriculum e tesine.
- Creare arte fotorealistica in uno stile particolare.
- Miglioramento dei video dimostrativi del prodotto.
- Suggerire nuovi composti farmacologici da testare.
- Progettazione di prodotti fisici ed edifici.
- Ottimizzazione di nuovi progetti di chip.
- Scrivere musica in uno stile o tono specifico.
Quali sono i vantaggi dell’IA generativa (Generative AI)?
L’IA generativa può essere ampiamente applicata in molte aree dell’azienda. Può semplificare l’interpretazione e la comprensione dei contenuti esistenti e creare automaticamente nuovi contenuti. Gli sviluppatori stanno esplorando i modi in cui l’IA generativa può migliorare i flussi di lavoro esistenti, con un occhio all’adattamento dei flussi di lavoro interamente per sfruttare la tecnologia. Alcuni dei potenziali vantaggi dell’implementazione dell’IA generativa includono quanto segue:
- Automatizzare il processo manuale di scrittura dei contenuti.
- Ridurre lo sforzo di rispondere alle e-mail.
- Migliorare la risposta a domande tecniche specifiche.
- Creazione di rappresentazioni realistiche di persone.
- Riassumere informazioni complesse in una narrazione coerente.
- Semplificare il processo di creazione di contenuti in uno stile particolare.
Quali sono i limiti dell’IA generativa (Generative AI)?
Le prime implementazioni dell’IA generativa illustrano chiaramente i suoi numerosi limiti. Alcune delle sfide che l’IA generativa presenta derivano dagli approcci specifici utilizzati per implementare casi d’uso particolari. Ad esempio, un riassunto di un argomento complesso è più facile da leggere rispetto a una spiegazione che includa varie fonti a sostegno dei punti chiave. La leggibilità del sommario, tuttavia, va a scapito della capacità dell’utente di controllare da dove provengono le informazioni.
Ecco alcune delle limitazioni da considerare durante l’implementazione o l’utilizzo di un’app di intelligenza artificiale generativa:
- Non sempre identifica la fonte del contenuto.
- Può essere difficile valutare la parzialità delle fonti originali.
- I contenuti dal suono realistico rendono più difficile identificare informazioni imprecise.
- Può essere difficile capire come sintonizzarsi per nuove circostanze.
- I risultati possono sorvolare su pregiudizi, intolleranza e odio.
(fonte)
Innovaformazione, scuola informatica specialistica promuove la cultura IT ed eroga formazione in ambito data science e per l’intelligenza artificiale (per aziende). Trovate l’elenco corsi data science e big data QUI.
INFO: info@innovaformazione.net – tel. 3471012275 (Dario Carrassi)