AlphaFold intelligenza artificiale

AlphaFold intelligenza artificiale. Il Premio Lasker viene assegnato dal 1945 a persone o enti che hanno dato grandi contributi scientifici alla medicina e alla scienza biomedica. Nel 2023 questo riconoscimento viene assiegnato ad una tecnologia rivoluzionaria per la previsione della struttura tridimensionale delle proteine: AlphaFold.

Il Premio Albert Lasker per la Ricerca Medica di Base 2023 premia due scienziati per l’invenzione di AlphaFold, il sistema di intelligenza artificiale (AI) che ha risolto l’annosa sfida di prevedere la struttura tridimensionale delle proteine a partire dalla sequenza unidimensionale dei loro aminoacidi. Con idee brillanti, sforzi intensi e un’ingegneria sopraffina, Demis Hassabis e John Jumper (entrambi di Google DeepMind, Londra) hanno guidato il team di AlphaFold e hanno spinto la previsione della struttura a un livello di precisione e velocità senza precedenti. Questo metodo trasformativo sta rapidamente facendo progredire la nostra comprensione dei processi biologici fondamentali e facilitando la progettazione di farmaci.

Un problema scoraggiante (AlphaFold intelligenza artificiale)
Le proteine dell’organismo svolgono una miriade di ruoli vitali all’interno delle cellule. Le loro diverse capacità sono intimamente legate alle forme che assumono dopo essersi ripiegate da catene lineari di amminoacidi in tre dimensioni. La comprensione della struttura può illuminare la funzione e svelare i misteri biologici.

Più di 60 anni fa, il compianto Christian Anfinsen (National Institutes of Health) dimostrò che una proteina ripiegata poteva riacquistare la sua forma senza aiuto e concluse che la sua sequenza aminoacidica codifica la sua organizzazione finale. Quando una catena nascente si configura, non può provare tutte le possibilità. Campionare tutte le disposizioni richiederebbe più tempo dell’età dell’universo, anche per una proteina di dimensioni modeste. Tuttavia, all’interno delle cellule, il ripiegamento può avvenire in pochi millisecondi, quindi la natura in qualche modo decifra il problema. Almeno in teoria, gli scienziati potrebbero individuare le linee guida che seguono le catene di amminoacidi verso le conformazioni corrette.

Utilizzando approcci multipli, stuoli di ricercatori hanno forgiato tattiche che speravano potessero catturare queste informazioni abbastanza bene da plasmare l’architettura di una proteina a partire dalla sua sequenza. Hanno cercato di esprimere le interazioni fisiche in equazioni energetiche e si sono orientati verso la cristallografia a raggi X e, infine, verso altri metodi per produrre modelli che potessero servire da cianografie per proteine correlate. Hanno anche combinato la conoscenza delle tendenze chimiche di specifici aminoacidi (se portano una carica, per esempio) con la loro posizione lungo la catena per ottenere indicazioni sulle caratteristiche strutturali di una proteina.

Nel 1994, John Moult (Università del Maryland) e colleghi hanno iniziato a seguire i progressi nella predizione delle strutture valutando le tecniche attraverso un’iniziativa comunitaria chiamata Critical Assessment of Structure Prediction (CASP). Ogni due anni, i partecipanti ricevono sequenze aminoacidiche di proteine le cui strutture sono state elaborate in laboratorio, ma non ancora rilasciate. I partecipanti applicano il sistema che hanno sviluppato e generano previsioni. Questi modelli vengono poi confrontati con la risposta sperimentale e assegnati dei punteggi.

Nel corso dei decenni, le prestazioni sono aumentate a piccoli passi, a volte bloccandosi o addirittura facendo marcia indietro. Uno dei primi approcci è stato sviluppato da David Baker (Università di Washington), che ha utilizzato brevi segmenti di un database condiviso a livello mondiale chiamato Protein Data Bank (PDB) per prevedere l’architettura locale delle proteine. Sebbene utile in alcuni casi, questa strategia basata sui frammenti richiedeva molto tempo e aveva un’applicabilità limitata alla grande maggioranza delle proteine.

Nel frattempo, le strutture risolte sperimentalmente si accumulavano. Nel 2014, il numero di elenchi nel PDB ha superato i 100.000, ma si trattava ancora di una piccola frazione delle decine di milioni di sequenze proteiche disponibili all’epoca.

Introduzione dell’intelligenza artificiale (AlphaFold intelligenza artificiale)
Nel 2018 e in occasione del 13° concorso CASP, gli scienziati hanno introdotto l’apprendimento automatico nei loro schemi di previsione. A differenza degli approcci tradizionali all’IA che si basano su una logica preconcetta, i sistemi di apprendimento automatico scoprono da soli i modelli dai dati. Facendo dell’apprendimento automatico la componente centrale della loro rete di predizione delle strutture proteiche, il team di Hassabis e Jumper ha vinto il CASP13 con un notevole vantaggio in termini di precisione rispetto al secondo classificato e con un miglioramento di quasi il 50% rispetto al miglior risultato del CASP12. Nonostante questo successo, i ricercatori di DeepMind non erano soddisfatti: Volevano uno strumento che gli sperimentatori avrebbero trovato utile, con errori inferiori a un angstrom, la dimensione di un atomo.

Hassabis, Jumper e il team di AlphaFold ricominciarono da capo e fecero un intenso brainstorming. Hanno aggiunto concetti geometrici e genetici e hanno integrato le conoscenze consolidate sulle proteine. Gli atomi hanno raggi caratteristici, per esempio, e i legami hanno angoli caratteristici. Il gruppo ha cercato di includere questi fattori in modo che non interferissero con la capacità del sistema di imparare da solo.

I ricercatori hanno escogitato modi per estrarre il massimo delle informazioni da dati sperimentali limitati e hanno messo in atto strategie che costringono AlphaFold2 ad apprendere in modo efficiente. Hanno permesso alla rete di aggiustare i calcoli in qualsiasi punto del processo, fino all’inizio, mentre lavora. Questa innovazione ha evitato la precedente insidia di bloccare gli errori iniziali. Il sistema affina iterativamente il suo modello strutturale in via di sviluppo, riproponendo a se stesso soluzioni provvisorie.

Hassabis, Jumper e colleghi hanno anche scartato i principi che avevano guidato gli algoritmi tradizionali. Per esempio, hanno ignorato la prossimità lineare a favore delle relazioni tridimensionali, poiché aminoacidi che si trovano a centinaia di subunità di distanza possono risiedere insieme in una proteina ripiegata. Inoltre, il team ha rafforzato l’importanza della vicinanza fisica inventando un meccanismo che presta particolare attenzione agli amminoacidi che sono in contatto.

Nessun singolo elemento è stato decisivo da solo; piuttosto, molte nuove idee ingegnose si sono combinate per ottenere una performance rivoluzionaria.

AlphaFold2 prende forma (AlphaFold intelligenza artificiale)
AlphaFold2 parte da una sequenza e cerca nelle banche dati di trovarne di simili. Presenta questi membri della famiglia evolutiva come stringhe di aminoacidi, uno sopra l’altro. Crea inoltre una matrice di informazioni su ogni possibile coppia di amminoacidi all’interno della proteina di interesse, a partire dalla loro identità, dalla loro distanza lineare e dalla direzione in cui si trovano l’uno rispetto all’altro nella catena. Questi due insiemi di dati – l’allineamento multisequenza (MSA) e le rappresentazioni delle coppie – vengono elaborati in parallelo durante la prima fase di AlphaFold2, chiamata Evoformer. Se sono state determinate strutture di proteine correlate, il sistema può utilizzare anche quelle. All’inizio, l’Evoformer sviluppa un’ipotesi strutturale grezza, che testa e perfeziona. A ogni passo, cerca di adattare il suo modello a ciò che ha scoperto finora.

Evoformer misura, ad esempio, le distanze tra ogni coppia di tre aminoacidi e valuta se formano un triangolo i cui lati si incontrano. In caso contrario, questa impossibilità dovrà essere risolta, ma la discrepanza può essere messa da parte e rivista. In questo modo, la geometria ispira ma non vincola le attività dell’Evoformer.

AlphaFold2 incorpora un’innovazione particolarmente potente che consente alla traccia MSA, che riflette le relazioni evolutive, di comunicare con la traccia della rappresentazione a coppie, che riflette le relazioni spaziali. Durante il flusso di informazioni, ogni percorso può sfruttare le conoscenze acquisite dall’altro e quindi affinare il proprio lavoro.

Per esempio, se la traccia MSA identifica due aminoacidi che non cambiano nel corso dell’evoluzione o che covariano, può avvisare la traccia di rappresentazione a coppie che questi aminoacidi potrebbero interagire fisicamente. Al contrario, se la traccia di rappresentazione delle coppie individua possibili vicini aminoacidi, può informare l’MSA, che può verificare se aminoacidi analoghi in proteine correlate si sono coevoluti in modi che supportano questo scenario. In questo modo, la comunicazione tra le due tracce aiuta ciascuna a migliorare le proprie ipotesi.

Dopo aver decifrato il maggior numero possibile di porzioni della struttura, Evoformer le passa al cosiddetto modulo strutturale, che le assembla in una proteina tridimensionale coerente. Man mano che il modulo strutturale muove i pezzi, questi continuano a modificarsi. Inizialmente, assegna a ogni amminoacido una posizione e un orientamento che creano un conglomerato insensato: Tutti si trovano nello stesso posto.

Passo dopo passo, ruota e sposta gli amminoacidi, continuando a ignorare quali sono linearmente adiacenti. Alla fine, emerge la spina dorsale della proteina e il sistema posiziona le catene laterali chimiche che caratterizzano ciascun amminoacido. AlphaFold2 predice non solo l’intera struttura 3D, ma anche i punteggi di affidabilità per ogni parte.

Addestramento rigoroso
Per addestrare il sistema, il team di Hassabis e Jumper ha utilizzato le strutture stabilite sperimentalmente nel PDB. AlphaFold2 ha confrontato ripetutamente le sue proposte con le risposte reali e ha gradualmente avvicinato le sue soluzioni alla realtà. Ripetendo questo processo su ogni membro del set di addestramento, l’algoritmo ha assorbito i principi della struttura delle proteine.

I ricercatori hanno sfruttato dei trucchi che hanno spinto la rete a imparare meglio. Per esempio, hanno nascosto degli amminoacidi nell’MSA e gli hanno chiesto di riempire gli spazi vuoti. In questo modo, hanno chiesto al sistema di padroneggiare le regole delle relazioni evolutive. Inoltre, hanno fornito in modo ricorsivo i risultati di ogni fase, che hanno fornito ad AlphaFold2 molte opportunità di riconsiderare e perfezionare.

AlphaFold2 ha anche calcolato quanto fidarsi delle sue previsioni e queste valutazioni di fiducia hanno permesso ai ricercatori di estrarre più informazioni dai dati disponibili e quindi di migliorare le sue prestazioni. Dopo avergli fornito le circa 140.000 sequenze del PDB, hanno analizzato un’altra serie di strutture non risolte. Dalle previsioni, hanno estratto le 350.000 coppie sequenza/struttura più affidabili e hanno addestrato il sistema su questi dati come se fossero stati verificati sperimentalmente.

Riorganizzare la scienza delle proteine
Nel 2020, AlphaFold2 ha superato la concorrenza nel CASP14. Le sue previsioni erano accurate con precisione atomica e generavano risultati eccellenti in pochi minuti anche per le proteine prive di un modello. È stato il primo approccio in grado di costruire previsioni ad alta risoluzione nei casi in cui non è nota alcuna struttura simile.

Nel luglio 2021, Hassabis e Jumper hanno pubblicato il loro metodo e le previsioni di struttura di quasi tutte le proteine umane. In soli due anni, l’impatto del loro manoscritto ha superato quasi tutti i 100.000 articoli di ricerca pubblicati su Nature dal 1900. È al 50° posto, essendo stato citato in più di 7000 articoli di riviste di alto livello.

In collaborazione con l’Istituto europeo di bioinformatica del Laboratorio europeo di biologia molecolare, Hassabis e Jumper hanno condiviso il programma e il database con la comunità scientifica e più di un milione di ricercatori hanno utilizzato queste risorse. Il team di DeepMind ha poi ampliato il catalogo a quasi tutte le proteine conosciute negli organismi di cui è stato sequenziato il genoma. Gli elenchi includono i proteomi, ad esempio, dei virus che rappresentano una minaccia epidemica e degli agenti patogeni ad alta priorità dell’Organizzazione Mondiale della Sanità.

La tecnologia ha già avuto un impatto notevole in una miriade di ambiti biomedici e non solo. Ha aiutato i ricercatori a colmare le lacune nella visualizzazione del complesso dei pori nucleari, un’enorme e complicata macchina molecolare che controlla il trasporto dentro e fuori dal nucleo. Gli scienziati hanno usato lo strumento per analizzare una siringa batterica che spara molecole nelle cellule degli insetti. Applicando le conoscenze che AlphaFold2 ha rivelato, i ricercatori hanno reingegnerizzato la proteina per colpire le cellule umane, aprendo una nuova strada verso la somministrazione di farmaci e la terapia genica. I laboratori accademici e le aziende stanno sfruttando AlphaFold2 per sviluppare vaccini, progettare farmaci, creare enzimi che masticano gli agenti inquinanti e molto altro ancora. Le prospettive sono infinite.

Lasciando volare la loro immaginazione e il loro talento, Hassabis, Jumper e il l team AlphaFold intelligenza artificiale hanno portato a termine una ricerca che ha lasciato perplessi gli scienziati per mezzo secolo. Questo trionfo ha inaugurato una nuova era nello studio e nella manipolazione delle proteine. Ha già catalizzato progressi sostanziali e il suo impatto e la sua portata promettono di esplodere man mano che i lavoratori in una vasta gamma di campi sognano nuovi modi per sfruttare il suo potenziale.

(fonte)

Innovaformazione, scuola informatica specialistica segue e promuove il settore AI (Intelligenza Artificiale).

L’offerta formativa prevede dei corsi rivolti alle aziende tra cui:

Corso Deep Learning con TensorFlow

Corso Data Scientist con Python

INFO: info@innovaformazione.net – tel. 3471012275 (Dario Carrassi)

Vuoi essere ricontattato? Lasciaci il tuo numero telefonico e la tua email, ti richiameremo nelle 24h:

    Ti potrebbe interessare

    Articoli correlati