arrow_back

Multimodalità con Gemini

Accedi Partecipa
Metti alla prova le tue conoscenze e condividile con la nostra community.
done
Accedi a oltre 700 lab pratici, badge delle competenze e corsi

Multimodalità con Gemini

Lab 1 ora universal_currency_alt 5 crediti show_chart Intermedio
info Questo lab potrebbe incorporare strumenti di AI a supporto del tuo apprendimento.
Metti alla prova le tue conoscenze e condividile con la nostra community.
done
Accedi a oltre 700 lab pratici, badge delle competenze e corsi

GSP1210

Laboratori autogestiti Google Cloud

Panoramica

Gemini è una famiglia di modelli di AI generativa sviluppati da Google DeepMind progettati per casi d'uso multimodali. L'API Gemini ti dà accesso ai modelli Gemini Pro Vision e Gemini Pro. Questo lab si concentra sulla dimostrazione di una varietà di casi d'uso multimodali per i quali è possibile utilizzare Gemini. In questo lab imparerai a utilizzare l'API Vertex AI Gemini per generare testo da prompt di testo, immagini e video.

Multimodalità

Rispetto agli LLM di solo testo, la multimodalità di Gemini Pro Vision può essere utilizzata per molti nuovi casi d'uso:

Casi d'uso di esempio con testo e immagini come input:

  • Rilevamento di oggetti nelle foto
  • Comprensione di schermate e interfacce
  • Comprensione di disegno e astrazione
  • Comprensione di grafici e diagrammi
  • Suggerimento relativo alle immagini in base alle preferenze dell'utente
  • Confronto tra le immagini per somiglianze, anomalie o differenze

Casi d'uso di esempio con testo e video come input:

  • Generazione della descrizione di un video
  • Estrazione di tag da oggetti in un video
  • Estrazione di momenti salienti/messaggi da un video

Obiettivi

In questo lab imparerai a:

  • Utilizzare l'API Vertex AI Gemini per generare testo da prompt di testo, immagini e video.

Configurazione e requisiti

Prima di fare clic sul pulsante Avvia lab

Leggi le seguenti istruzioni. I lab sono a tempo e non possono essere messi in pausa. Il timer si avvia quando fai clic su Avvia lab e ti mostra per quanto tempo avrai a disposizione le risorse Google Cloud.

Con questo lab pratico avrai la possibilità di completare le attività in prima persona, in un ambiente cloud reale e non di simulazione o demo. Riceverai delle nuove credenziali temporanee che potrai utilizzare per accedere a Google Cloud per la durata del lab.

Per completare il lab, avrai bisogno di:

  • Accesso a un browser internet standard (Chrome è il browser consigliato).
Nota: utilizza una finestra del browser in incognito o privata per eseguire questo lab. Ciò evita eventuali conflitti tra il tuo account personale e l'account Studente, che potrebbero causare addebiti aggiuntivi sul tuo account personale.
  • È ora di completare il lab: ricorda che, una volta iniziato, non puoi metterlo in pausa.
Nota: se hai già un account o un progetto Google Cloud personale, non utilizzarlo per questo lab per evitare addebiti aggiuntivi al tuo account.

Come avviare il lab e accedere alla console Google Cloud

  1. Fai clic sul pulsante Avvia lab. Se devi effettuare il pagamento per il lab, si apre una finestra popup per permetterti di selezionare il metodo di pagamento. A sinistra, trovi il riquadro Dettagli lab con le seguenti informazioni:

    • Il pulsante Apri console Google Cloud
    • Tempo rimanente
    • Credenziali temporanee da utilizzare per il lab
    • Altre informazioni per seguire questo lab, se necessario
  2. Fai clic su Apri console Google Cloud (o fai clic con il tasto destro del mouse e seleziona Apri link in finestra di navigazione in incognito se utilizzi il browser Chrome).

    Il lab avvia le risorse e apre un'altra scheda con la pagina di accesso.

    Suggerimento: disponi le schede in finestre separate posizionate fianco a fianco.

    Nota: se visualizzi la finestra di dialogo Scegli un account, fai clic su Usa un altro account.
  3. Se necessario, copia il Nome utente di seguito e incollalo nella finestra di dialogo di accesso.

    {{{user_0.username | "Username"}}}

    Puoi trovare il Nome utente anche nel riquadro Dettagli lab.

  4. Fai clic su Avanti.

  5. Copia la Password di seguito e incollala nella finestra di dialogo di benvenuto.

    {{{user_0.password | "Password"}}}

    Puoi trovare la Password anche nel riquadro Dettagli lab.

  6. Fai clic su Avanti.

    Importante: devi utilizzare le credenziali fornite dal lab. Non utilizzare le credenziali del tuo account Google Cloud. Nota: utilizzare il tuo account Google Cloud per questo lab potrebbe comportare addebiti aggiuntivi.
  7. Fai clic nelle pagine successive:

    • Accetta i termini e le condizioni.
    • Non inserire opzioni di recupero o l'autenticazione a due fattori, perché si tratta di un account temporaneo.
    • Non registrarti per le prove gratuite.

Dopo qualche istante, la console Google Cloud si apre in questa scheda.

Nota: per visualizzare un menu con un elenco di prodotti e servizi Google Cloud, fai clic sul menu di navigazione in alto a sinistra. Icona menu di navigazione

Abilita tutte le API consigliate

  1. Nella console Google Cloud, nel menu di navigazione, fai clic su Vertex AI.

  2. Fai clic su Abilita tutte le API consigliate.

Attività 1: apri il notebook in Vertex AI Workbench

  1. Nella console Google Cloud, nel menu di navigazione, fai clic su Vertex AI > Workbench.

  2. Trova l'istanza e fai clic sul pulsante Apri JupyterLab.

L'interfaccia JupyterLab per la tua istanza Workbench si aprirà in una nuova scheda del browser.

Attività 2: configura il notebook

  1. Fai clic sul file .

  2. Nella finestra di dialogo Seleziona kernel, scegli Python 3 dall'elenco dei kernel disponibili.

  3. Rivedi le sezioni Introduzione e Importa librerie del notebook.

    • Per Project ID (ID progetto) usa e per Location (Località) usa .
Nota: puoi saltare tutte le celle del blocco note contrassegnate come solo Colab.

Nelle sezioni seguenti, analizzerai le celle del blocco note per vedere come utilizzare l'API Gemini di Vertex AI con l'SDK Vertex AI Python.

Attività 3: utilizza il modello Gemini Pro Vision

Gemini Pro Vision (gemini-pro-vision) è un modello multimodale che supporta prompt multimodali. Puoi includere testo, immagini e video nelle tue richieste di prompt e ottenere risposte di testo o codice.

In questa attività, esamina le celle del blocco note per vedere come utilizzare il modello Gemini Pro Vision. Torna qui per controllare i tuoi progressi man mano che completi gli obiettivi.

Comprensione delle immagini attraverso più immagini

Una delle funzionalità di Gemini è quella di poter ragionare su più immagini. In questo esempio, utilizzerai Gemini per calcolare il costo totale dei generi alimentari utilizzando un'immagine di frutta e un listino prezzi.

Esamina la sezione Comprensione delle immagini attraverso più immagini del blocco note.

Fai clic su Controlla i miei progressi per verificare l'obiettivo. Comprensione delle immagini attraverso più immagini

Comprensione di schermate e interfacce

Gemini può anche estrarre informazioni da schermate, opzioni UI, screenshot, icone e layout dell'appliance. In questo esempio, utilizzerai Gemini per estrarre informazioni da un forno elettrico per aiutare una persona a navigare nella UI e rispondere in diverse lingue.

Esamina la sezione Comprensione di schermate e interfacce del blocco note.

Fai clic su Controlla i miei progressi per verificare l'obiettivo. Comprensione di schermate e interfacce

Comprensione delle relazioni tra entità nei diagrammi tecnici

Gemini dispone di funzionalità multimodali che gli consentono di comprendere i diagrammi e di adottare misure concrete, come l'ottimizzazione o la generazione di codice. In questo esempio, vedrai come Gemini può decifrare un diagramma di relazioni tra entità, comprendere le relazioni tra tabelle, identificare i requisiti per l'ottimizzazione in un ambiente specifico come BigQuery e persino generare il codice corrispondente.

Esamina la sezione Comprensione delle relazioni tra entità nei diagrammi tecnici del blocco note.

Fai clic su Controlla i miei progressi per verificare l'obiettivo. Comprensione delle relazioni tra entità nei diagrammi tecnici

Suggerimenti basati su più immagini

Gemini è in grado di confrontare le immagini e fornire suggerimenti. Ciò può essere utile in settori come l’e-commerce e il retail. In questo esempio, utilizzerai Gemini per suggerire gli occhiali più adatti a un viso dalla forma ovale.

Esamina la sezione Suggerimenti basati su più immagini del blocco note.

Fai clic su Controlla i miei progressi per verificare l'obiettivo. Suggerimenti basati su più immagini

Somiglianze/differenze

Gemini può confrontare le immagini e identificare somiglianze o differenze tra gli oggetti. In questo esempio, utilizzerai Gemini per confrontare due immagini della stessa località e identificare le differenze tra loro.

Esamina la sezione Somiglianze/differenze del blocco note.

Fai clic su Controlla i miei progressi per verificare l'obiettivo. Somiglianze/differenze

Generazione della descrizione di un video

Gemini può generare la descrizione di un video. In questo esempio, utilizzerai Gemini per generare la descrizione di un video relativo a una costa del Mar Mediterraneo.

Esamina la sezione Generazione della descrizione di un video del blocco note.

Estrazione di tag da oggetti in un video

Gemini può anche estrarre tag da un video. In questo esempio, utilizzerai Gemini per estrarre tag dagli oggetti di un video relativo a un servizio fotografico per poi generare hashtag.

Esamina la sezione Estrazione di tag da oggetti in un video del blocco note.

Ulteriori domande su un video

Gemini può rispondere a domande su un video. In questo esempio, utilizzerai Gemini per rispondere a domande su un video e restituire una risposta in formato JSON.

Esamina la sezione Ulteriori domande su un video del blocco note.

Recupero di informazioni aggiuntive dal video

Gemini può anche recuperare informazioni aggiuntive dal video. In questo esempio, utilizzerai Gemini per recuperare informazioni aggiuntive sul video, ad esempio risposte a domande specifiche su un percorso ferroviario.

Esamina la sezione Recupero di informazioni aggiuntive dal video del blocco note.

Complimenti!

Hai completato correttamente questo lab, in cui hai imparato a utilizzare l'API Vertex AI Gemini per generare testo da prompt di testo e immagini.

Passaggi successivi/Scopri di più

Formazione e certificazione Google Cloud

… per utilizzare al meglio le tecnologie Google Cloud. I nostri corsi ti consentono di sviluppare competenze tecniche e best practice per aiutarti a metterti subito al passo e avanzare nel tuo percorso di apprendimento. Offriamo vari livelli di formazione, dal livello base a quello avanzato, con opzioni di corsi on demand, dal vivo e virtuali, in modo da poter scegliere il più adatto in base ai tuoi impegni. Le certificazioni ti permettono di confermare e dimostrare le tue abilità e competenze relative alle tecnologie Google Cloud.

Ultimo aggiornamento del manuale: 8 ottobre 2024

Ultimo test del lab: 8 ottobre 2024

Copyright 2024 Google LLC Tutti i diritti riservati. Google e il logo Google sono marchi di Google LLC. Tutti gli altri nomi di società e prodotti sono marchi delle rispettive società a cui sono associati.

Questi contenuti non sono al momento disponibili

Ti invieremo una notifica via email quando sarà disponibile

Bene.

Ti contatteremo via email non appena sarà disponibile