Come Amazon usa LLM per raccomandare i prodotti
Come Amazon usa LLM per raccomandare i prodotti
Indice dei Contenuti – Come Amazon usa LLM per raccomandare i prodotti
- Il problema: quando la ricerca non capisce il senso
- COSMO: il knowledge graph del senso comune
- LLM come generatori di ipotesi: OPT-175B in azione
- La pipeline di filtraggio: dalla massa alla qualità
- COSMO-LM: il modello compatto per la produzione
- Architettura di deployment ad alta scala
- Risultati: +0,7% di vendite vale miliardi
- Best practice: pro e contro dell’approccio Amazon con LLM
- Conclusioni e formazione continua
Immagina di cercare “scarpe per donne in gravidanza” su Amazon. Il motore di ricerca ti restituisce scarpe antiscivolo, anche se la parola “gravidanza” non appare in nessuna scheda prodotto. Zero overlap tra query e catalogo. Eppure il risultato è corretto. Come è possibile? La risposta si chiama COSMO: un knowledge graph del senso comune costruito da Amazon usando Large Language Model (LLM), e rappresenta uno dei casi d’uso più sofisticati dell’AI generativa applicata all’e-commerce su scala industriale. In questo articolo analizziamo nel dettaglio come funziona, con esempi pratici di codice, pro e contro dell’approccio.
1. Il problema: quando la ricerca non capisce il senso
I sistemi di raccomandazione tradizionali operano principalmente attraverso due meccanismi: il matching testuale (confronto tra parole della query e parole nel catalogo prodotti) e l’analisi della cronologia di acquisto. Questi approcci funzionano bene finché esiste una sovrapposizione lessicale tra ciò che il cliente cerca e ciò che il prodotto descrive. Ma quando l’intenzione del cliente richiede un passaggio inferenziale (cioè quando bisogna “ragionare” per collegare query e prodotto) i sistemi tradizionali si bloccano.
Questo fenomeno è noto come semantic gap: il divario tra ciò che il cliente scrive e ciò che intende davvero. Un esempio concreto: la query “abiti invernali” implica implicitamente il concetto di calore, ma la scheda di un piumino a maniche lunghe descrive materiale, taglie e lunghezza delle maniche, senza menzionare il calore direttamente. Colmare quel gap richiede senso comune, qualcosa che i knowledge graph fattuali non erano stati progettati per gestire.
Amazon aveva già knowledge graph per attributi di prodotto (marca, colore, materiale, categoria), ma questi codificano cosa è un prodotto, non perché un essere umano lo vorrebbe acquistare. Il team di ricerca ha identificato questo blind spot e ha costruito COSMO per risolverlo.
2. COSMO: il knowledge graph del senso comune – Come Amazon usa LLM per raccomandare i prodotti
COSMO (COmmon Sense knowledge for prOduct rEcommendation) è il primo sistema Amazon in produzione che usa LLM instruction-tuned per costruire un knowledge graph e servirlo alle applicazioni online. Il grafo conta 6,3 milioni di nodi e 29 milioni di archi, distribuiti su 18 categorie di prodotto.
Il cuore del sistema è la struttura a triple entità-relazione-entità. Una tripla collega due entità attraverso una relazione definita. Esempio reale tratto dalla ricerca Amazon:
<co-acquisto di custodia fotocamera e pellicola protettiva, capableOf, proteggere la fotocamera>
Il sistema definisce 15 tipi di relazione derivati dall’analisi dei pattern linguistici generati dagli LLM. Tra le più rilevanti troviamo: used_for_function (“asciugare il viso”), used_for_event (“portare a spasso il cane”), used_for_audience (“operatrice asilo nido”), used_in_location (“camera da letto”), used_in_body (“pelle sensibile”), used_with (prodotti complementari), xIs_a (“donna incinta”) e xWant (“giocare a tennis”). Questa ontologia non è stata progettata top-down da ingegneri: è emersa dall’analisi di ciò che gli LLM effettivamente generavano, poi canonicalizzata dai ricercatori Amazon.
3. LLM come generatori di ipotesi: OPT-175B in azione
L’intuizione alla base dell’approccio Amazon è semplice ma potente: i Large Language Model codificano enormi quantità di conoscenza del mondo nei loro parametri. Se chiedi a un LLM perché un cliente che ha cercato “giubbotto invernale” ha acquistato un piumino a maniche lunghe, può ragionare che i piumini forniscono calore e che il calore è ciò che il cliente cercava.
Il team ha alimentato milioni di coppie di comportamento utente in OPT-175B e OPT-30B, Large Language Model ospitati internamente su 16 GPU A100. La scelta di OPT invece di GPT-4 era vincolata dalla privacy dei dati: i dati comportamentali dei clienti (quali query portavano a quali acquisti) potevano essere processati solo su infrastruttura Amazon.
Due tipologie di dati comportamentali sono entrate nel sistema:
- Query-purchase pairs: collegano una query di ricerca al prodotto che il cliente ha effettivamente acquistato (1,87 milioni di coppie su 18 categorie).
- Co-purchase pairs: prodotti acquistati insieme nella stessa sessione di acquisto (3,14 milioni di coppie).
Il design del prompt era fondamentale. Invece di una semplice completamento testuale, Amazon ha formattato ogni coppia comportamentale come una task di question-answering, chiedendo all’LLM di generare una lista numerata di candidati. Esempio pratico di prompt utilizzato:
# Esempio semplificato del pattern di prompt Amazon
prompt = f”””
Un cliente ha cercato: ‘{query}’
Ha poi acquistato: ‘{product}’
Usando la relazione ‘capableOf’, spiega in modo
conciso perché questo prodotto soddisfa questa ricerca.
Genera una lista numerata di 5 spiegazioni diverse:
“””
Il risultato? Milioni di spiegazioni candidate — ma con qualità molto disomogenea. Solo il 35% delle spiegazioni query-acquisto superava il test di “tipicità” (ovvero erano rappresentative di un’intenzione di acquisto genuina). Per le co-purchase, il numero scendeva addirittura al 9%. Il 91% dei ragionamenti dell’LLM sulle co-purchase era circolare o banale, del tipo “i clienti li hanno acquistati insieme perché gli piacciono”. Questo dato dovrebbe far riflettere chiunque stia costruendo sistemi basati su LLM.
4. La pipeline di filtraggio: dalla massa alla qualità – Come Amazon usa LLM per raccomandare i prodotti
Amazon ha trattato l’LLM come una miniera di ipotesi rumorose, non come un oracolo. La vera ingegneria non sta nella generazione, ma nella filtrazione. La pipeline di raffinamento si articola in tre fasi.
Fase 1: Filtraggio rule-based grossolano
Rimozione di frasi incomplete (valutate con GPT-2), eliminazione delle generazioni che corrispondono esattamente o quasi al testo della query/titolo prodotto (edit distance), e scarto delle spiegazioni generiche identificate tramite una combinazione di frequenza ed entropia (le spiegazioni generiche tendono a co-occorrere con molti prodotti diversi).
Fase 2: Filtraggio per similarità semantica
Alcuni output dell’LLM sembravano diversi superficialmente ma erano parafasi semantiche dell’input originale. Amazon ha usato un language model interno pre-addestrato su testo e-commerce per calcolare embedding e misurare la cosine similarity. Quando la similarità tra la conoscenza generata e il contesto originale era troppo alta, il candidato veniva scartato.
# Esempio di filtraggio per cosine similarity (pseudocodice)
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
def filter_paraphrase(generated_emb, context_emb, threshold=0.85):
sim = cosine_similarity([generated_emb], [context_emb])[0][0]
# Troppo simile = parafasi, scarta
return sim < threshold # True = mantieni
Fase 3: Annotazione umana e classificatore ML
Amazon ha campionato 30.000 candidati di conoscenza per revisione umana (15.000 da co-purchase, 15.000 da search-buy). Gli annotatori valutavano plausibilità (il collegamento è ragionevole?) e tipicità (è rappresentativo di un comportamento d’acquisto genuino?). La distinzione è sottile ma importante: la ragione tipica per cui si acquista un Apple Watch è che è un orologio intelligente, non semplicemente che indica l’ora. Entrambe le affermazioni sono plausibili, ma solo la prima è tipica. Questi 30.000 esempi annotati hanno poi addestrato un classificatore DeBERTa-large per scalare il processo a tutti i candidati rimanenti. Solo quelli con score di plausibilità > 0,5 sono sopravvissuti, ottenendo i 29 milioni di archi del grafo finale.
5. COSMO-LM: il modello compatto per la produzione – Come Amazon usa LLM per raccomandare i prodotti
Il knowledge graph COSMO cattura relazioni di senso comune pre-calcolate, ma il motore di ricerca Amazon incontra continuamente nuove query e nuovi prodotti. Eseguire l’intero pipeline (generazione OPT-175B + scoring del classificatore) per ogni nuova coppia comportamentale sarebbe proibitivamente costoso in produzione.
La soluzione è stata l’instruction tuning. Il team ha usato i 30.000 esempi annotati per creare dati di istruzione e ha eseguito il fine-tuning di LLaMA 7B e 13B. Questi modelli base offrivano il miglior equilibrio tra qualità di generazione e costo di inferenza per il serving in produzione: molti meno parametri di OPT-175B, ma ancora in grado di produrre output di alta qualità quando addestrati su dati specifici del dominio.
Il modello risultante, COSMO-LM, è stato addestrato su 18 domini di prodotto, 15 tipi di relazione e 5 task distinti: generazione di senso comune, predizione di plausibilità, predizione di tipicità, predizione di rilevanza della ricerca e predizione di co-purchase. Il multi-task training significa che COSMO-LM può sia generare conoscenza sia valutare la qualità del proprio output, collassando di fatto lo stack “LLM grande + classificatore” in un singolo modello più piccolo.
6. Architettura di deployment ad alta scala
Avere un modello che genera conoscenza utile è una sfida. Servirla alla scala di Amazon con latenza accettabile è un’altra. L’architettura di deployment si basa su due componenti principali.
- Feature Store: trasforma gli output testuali grezzi di COSMO-LM in feature strutturate che le applicazioni downstream possono consumare direttamente (coppie chiave-valore di prodotto, rappresentazioni di sottocategorie semantiche, segnali di intento).
- Asynchronous Cache Store: gestisce il serving tramite una strategia di caching a due livelli. Il primo livello pre-carica le risposte per le ricerche più frequenti dell’anno (maggioranza del traffico). Il secondo livello processa in batch le richieste giornaliere per query nuove o meno comuni, aggiornando la cache.
Quando arriva una query utente, il sistema controlla prima la cache. In caso di hit, risposta immediata. In caso di miss, va in batch processing e aggiorna la cache per query future identiche. SageMaker gestisce deployment e aggiornamento del modello, ingerendo i log di sessione comportamentale dei clienti ogni giorno.
Questa architettura soddisfa i rigidi requisiti di latenza di Amazon, ma comporta un compromesso: COSMO si aggiorna giornalmente, quindi non può incorporare eventi in tempo reale come la flash sale che fluttuano nell’arco di ore. Amazon riconosce esplicitamente questa limitazione.
7. Risultati: +0,7% di vendite vale miliardi
I risultati offline sul dataset pubblico ESCI di KDD Cup 2022 sono stati notevoli. Un cross-encoder potenziato con triple COSMO ha raggiunto 73,48% di Macro F1 e 90,78% di Micro F1 con encoder addestrabili — superando il miglior modello ensemble in cima alla classifica del KDD Cup. Con encoder congelati (dove l’unica differenza era l’inclusione o meno delle triple COSMO), il miglioramento era del 60% sul Macro F1.
Sul dataset privato su quattro mercati (USA, Canada, UK e India), il modello potenziato da COSMO ha costantemente sovraperformato le baseline in ogni locale, con i guadagni più forti nel mercato indiano, dove il gap tra linguaggio della query e linguaggio del catalogo prodotti tende ad essere maggiore.
Ma il dato più significativo è quello business: nei test A/B condotti su circa il 10% del traffico USA per diversi mesi, COSMO ha prodotto un incremento relativo dello 0,7% nelle vendite di prodotti nel segmento di test e un aumento dell’8% nell’engagement della navigazione. Tradotto in valore assoluto: centinaia di milioni di dollari di ricavi aggiuntivi annui da una singola feature di ricerca con visibilità limitata. Amazon ha proiettato che estendere COSMO-LM a tutto il traffico potrebbe produrre guadagni di ricavi nell’ordine dei miliardi.
8. Best practice: pro e contro dell’approccio Amazon con LLM
L’approccio COSMO di Amazon offre lezioni preziose per qualsiasi team di sviluppo che voglia integrare LLM in sistemi di produzione. Ecco un’analisi onesta di punti di forza e limitazioni.
PRO
- Leverage straordinario: da 30.000 annotazioni umane a 29 milioni di archi nel grafo. L’uso di LLM come generatori di ipotesi + classificatori ML per la validazione abbatte i costi di labeling in modo drastico.
- Reasoning contestuale reale: COSMO risolve il semantic gap in modo sistemico, non con hack o workaround. Il sistema comprende l’intento del cliente, non solo le sue parole.
- Architettura ibrida efficiente: grafo statico pre-calcolato (per le query note) + COSMO-LM on-the-fly (per le nuove), bilanciando qualità e latenza.
- Privacy by design: l’uso di OPT invece di GPT-4 per i dati sensibili dimostra come integrare LLM rispettando i vincoli normativi sulla privacy.
- ROI misurabile: il +0,7% di vendite in A/B test dimostra un impatto business diretto e quantificabile sull’utilizzo degli LLM.
CONTRO
- Bassa qualità nativa degli LLM: solo il 9-35% delle generazioni supera il filtro di qualità. Senza una robusta pipeline di filtraggio, un sistema basato su LLM produce output inaffidabili in produzione.
- Latenza di aggiornamento: il ciclo di refresh giornaliero non cattura eventi in tempo reale. Per domini ad alta volatilità (news, sport, eventi live) questo è un limite significativo.
- Copertura limitata per prodotti long-tail: il filtraggio aggressivo (solo candidati con plausibilità > 0,5) crea gap di copertura, specialmente per prodotti di nicchia e query inusuali.
- Complessità infrastrutturale elevata: il sistema richiede GPU cluster per training, SageMaker per deployment, sistemi di caching a due livelli e pipeline di annotazione umana. Non è replicabile da team senza risorse significative.
- Dipendenza dalla qualità dei dati comportamentali: il sistema è valido quanto i segnali di comportamento che lo alimentano. In mercati nuovi o con scarsa storia d’acquisto, le performance degradano.
9. Conclusioni e formazione continua
COSMO rappresenta molto più di un sistema di raccomandazione avanzato. È una dimostrazione concreta di come i Large Language Model possano essere integrati in sistemi di produzione su scala industriale quando si adotta l’approccio giusto: LLM come generatori di ipotesi + filtraggio rigoroso + validazione umana + modello compatto per il serving. Il rapporto di leva è ciò che rende questo approccio straordinario: 30.000 annotazioni umane trasformate in 29 milioni di archi di conoscenza su 18 categorie di prodotto. Questo non sarebbe stato possibile senza una profonda comprensione degli LLM, dei loro limiti e delle architetture di deployment.
Il mercato dell’AI e dell’e-commerce è in continua e rapida evoluzione. Quello che oggi rappresenta l’architettura d’avanguardia di Amazon sarà la baseline standard del settore nel giro di pochi anni. Per i team di sviluppo software e ingegneria informatica, l’unico modo per rimanere competitivi e mantenere aggiornate le proprie competenze è la formazione continua, sistematica e mirata sugli LLM, sull’AI generativa e sulle architetture di sistema che li circondano.
Non è sufficiente seguire blog e articoli: servono percorsi strutturati che portino i developer da utenti passivi degli LLM a costruttori consapevoli di sistemi AI in produzione. I Corsi AI Generativa per Aziende di InnovaFormazione sono progettati esattamente per questo: formare sviluppatori software, ingegneri informatici e team IT su LLM, prompt engineering, RAG (Retrieval-Augmented Generation), fine-tuning, deployment e integrazione con sistemi aziendali reali.
Le aziende possono accedere ai nostri percorsi formativi anche attraverso Fondimpresa, il Fondo Interprofessionale che permette di finanziare la formazione continua dei dipendenti attingendo ai contributi versati all’INPS. Questo significa che formare il proprio team sull’AI Generativa può avvenire a costo zero o con costi molto ridotti, rendendo l’investimento in competenze LLM accessibile anche alle PMI. Contattaci per verificare la tua idoneità e scoprire come attivare un piano formativo finanziato per i tuoi sviluppatori.
Dove iniziare? Per chi vuole passare dalla teoria alla pratica e costruire sistemi AI reali come quello descritto in questo articolo, il nostro consiglio è di dare un’occhiata ai Corsi di AI Generativa di InnovaFormazione: un percorso completo su LLM, AI Generativa e integrazione con sistemi aziendali, pensato per sviluppatori e team IT che vogliono acquisire competenze operative e immediatamente spendibili.
Vuoi portare le competenze LLM e AI Generativa nel tuo team aziendale?
Richiedi informazioni e un preventivo personalizzato:
Email: info@innovaformazione.net
Telefono: TEL. 3471012275
Referente: Dario Carrassi
Per altri articoli tecnici consigliamo di navigare sul nostro blog al seguente LINK.
Vuoi essere ricontattato? Lasciaci il tuo numero telefonico e la tua email, ti richiameremo nelle 24h:
Articoli correlati
SAP BTP RAP vs SAP CAP
Orchestrare team di agenti
Sicurezza GitHub Agentic Workflow
Cosa è Caveman
Lavoro Coordinatore Logistica Piemonte
