Imagen 3 nell'API Gemini

L'API Gemini fornisce l'accesso a Imagen 3, il modello da testo a immagine di massima qualità di Google, che offre una serie di funzionalità nuove e migliorate. Imagen 3 può:

  • Genera immagini con dettagli migliori, illuminazione più ricca e meno artefatti che distraggono rispetto ai modelli precedenti
  • Comprendere i prompt scritti in linguaggio naturale
  • Genera immagini in una vasta gamma di formati e stili
  • Eseguire il rendering del testo in modo più efficace rispetto ai modelli precedenti

Genera immagini

Questa sezione mostra come creare un'istanza per un modello Imagen e generare immagini.

Dopo aver installato l'SDK di IA generativa di Google, puoi utilizzare il seguente codice per generare immagini:

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

client = genai.Client(api_key='GEMINI_API_KEY')

response = client.models.generate_images(
    model='imagen-3.0-generate-002',
    prompt='Fuzzy bunnies in my kitchen',
    config=types.GenerateImagesConfig(
        number_of_images= 4,
    )
)
for generated_image in response.generated_images:
  image = Image.open(BytesIO(generated_image.image.image_bytes))
  image.show()

L'esempio di codice dovrebbe restituire quattro immagini simili a questa:

Immagine creata con l'IA di due coniglietti in cucina

Gli sviluppatori Python possono anche provare il blocco note Getting Started with Imagen nel Gemini Cookbook.

Parametri del modello Imagen

I seguenti parametri sono disponibili per generate_images():

  • prompt: il prompt di testo per l'immagine.
  • number_of_images: il numero di immagini da generare, da 1 a 4 (inclusi). Il valore predefinito è 4.
  • aspect_ratio: modifica le proporzioni dell'immagine generata. I valori supportati sono "1:1", "3:4", "4:3", "9:16" e "16:9". Il valore predefinito è "1:1".
  • safety_filter_level: aggiunge un livello di filtro al filtro di sicurezza. I seguenti valori sono validi:
    • "BLOCK_LOW_AND_ABOVE": blocca quando il punteggio di probabilità o il punteggio di gravità è LOW, MEDIUM o HIGH.
    • "BLOCK_MEDIUM_AND_ABOVE": blocca quando il punteggio di probabilità o il punteggio di gravità è MEDIUM o HIGH.
    • "BLOCK_ONLY_HIGH": blocca quando il punteggio di probabilità o la gravità è HIGH.
  • person_generation: consenti al modello di generare immagini di persone. Sono supportati i seguenti valori:
    • "DONT_ALLOW": blocca la generazione di immagini di persone.
    • "ALLOW_ADULT": genera immagini di adulti, ma non di bambini. Questa è l'impostazione predefinita.

Alle immagini generate viene sempre aggiunta una filigrana digitale non visibile SynthID.

Lingua del prompt di testo

Sono supportate le seguenti lingue per i prompt di testo di input:

  • Inglese (en)

Passaggi successivi

Per scoprire di più sulla scrittura dei prompt per Imagen, consulta la guida ai prompt Imagen.