Ta strona została przetłumaczona przez Cloud Translation API.

Imagen 3 w interfejsie Gemini API

Interfejs Gemini API zapewnia dostęp do Imagen 3 – najwyższej jakości modelu Google „tekst na obraz” z wieloma nowymi, ulepszonymi funkcjami. Urządzenie Imagen 3 umożliwia:

generować obrazy o większej szczegółowości, bogatszym oświetleniu i mniejszej liczbie rozpraszających artefaktów niż w przypadku poprzednich modeli.
Rozumienie promptów w języku naturalnym
generować obrazy w wielu formatach i stylach;
renderować tekst efektywniej niż poprzednie modele;

Generuj obrazy

W tej sekcji dowiesz się, jak utworzyć instancję modelu Imagen i generować obrazy.

Po zainstalowaniu pakietu SDK generatywnej AI od Google możesz generować obrazy za pomocą tego kodu:

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

client = genai.Client(api_key='GEMINI_API_KEY')

response = client.models.generate_images(
    model='imagen-3.0-generate-002',
    prompt='Fuzzy bunnies in my kitchen',
    config=types.GenerateImagesConfig(
        number_of_images= 4,
    )
)
for generated_image in response.generated_images:
  image = Image.open(BytesIO(generated_image.image.image_bytes))
  image.show()

Przykładowy kod powinien wyświetlić cztery obrazy podobne do tego:

Obraz 2 puszystych królików w kuchni wygenerowany przez AI

Programiści Pythona mogą też wypróbować notatnik Pierwsze kroki z Imagen w książce kucharskiej Gemini.

Parametry modelu Imagen

W przypadku parametru generate_images() dostępne są te parametry:

prompt: prompt tekstowy dotyczący obrazu.
number_of_images: liczba obrazów do wygenerowania, od 1 do 4 (włącznie). Wartość domyślna to 4.
aspect_ratio: zmienia format wygenerowanego obrazu. Obsługiwane wartości to "1:1", "3:4", "4:3", "9:16" i "16:9". Wartość domyślna to "1:1".
safety_filter_level: dodaje poziom filtra do filtrowania bezpieczeństwa. Prawidłowe są te wartości:
- "BLOCK_LOW_AND_ABOVE": blokuj, gdy wynik prawdopodobieństwa lub wynik ważności to LOW, MEDIUM lub HIGH.
- "BLOCK_MEDIUM_AND_ABOVE": blokuj, gdy wynik prawdopodobieństwa lub wynik ważności to MEDIUM lub HIGH.
- "BLOCK_ONLY_HIGH": blokuj, gdy wynik prawdopodobieństwa lub ocena wagi to HIGH.
person_generation: zezwalaj modelowi na generowanie obrazów przedstawiających ludzi. Obsługiwane wartości:
- "DONT_ALLOW": blokowanie generowania obrazów przedstawiających ludzi.
- "ALLOW_ADULT": generowanie obrazów przedstawiających dorosłych, ale nie dzieci. To jest ustawienie domyślne.

Niewidoczny cyfrowy znak wodny SynthID jest zawsze dodawany do wygenerowanych obrazów.

Język prompta tekstowego

Obsługiwane są te języki promptów tekstowych:

Angielski (en)

Co dalej?

Więcej informacji o pisaniu promptów w Imagen znajdziesz w przewodniku po promptach w Imagen.