تتيح واجهة Gemini API الوصول إلى Imagen 3، وهو نموذج النص إلى صورة الأعلى جودة من Google، ويتضمّن عددًا من الإمكانات الجديدة والمحسّنة. يمكن لخدمة Imagen 3 تنفيذ ما يلي:
- إنشاء صور بتفاصيل أفضل وإضاءة أكثر ثراءً وعناصر مزعجة أقل من النماذج السابقة
- فهم الطلبات المكتوبة بلغة طبيعية
- إنشاء صور بمجموعة كبيرة من التنسيقات والأنماط
- عرض النص بفعالية أكبر من النماذج السابقة
إنشاء صور
يوضح هذا القسم كيفية إنشاء مثيل لنموذج Imagen وإنشاء صور.
بعد تثبيت حزمة تطوير البرامج (SDK) الخاصة بالذكاء الاصطناعي التوليدي من Google، يمكنك استخدام الرمز التالي لإنشاء الصور:
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client(api_key='GEMINI_API_KEY')
response = client.models.generate_images(
model='imagen-3.0-generate-002',
prompt='Fuzzy bunnies in my kitchen',
config=types.GenerateImagesConfig(
number_of_images= 4,
)
)
for generated_image in response.generated_images:
image = Image.open(BytesIO(generated_image.image.image_bytes))
image.show()
من المفترض أن يؤدي نموذج الرمز البرمجي إلى إخراج أربع صور مشابهة لهذه الصورة:
يمكن لمطوّري برامج Python أيضًا تجربة دفتر ملاحظات "بدء استخدام Imagen" في كتاب Gemini Cookbook.
مَعلمات نموذج Imagen
تتوفّر المَعلمات التالية لنظام generate_images()
:
prompt
: الطلب النصي للصورة-
number_of_images
: عدد الصور المطلوب إنشاؤها، من 1 إلى 4 (شاملة). القيمة التلقائية هي 4. aspect_ratio
: لتغيير نسبة العرض إلى الارتفاع للصورة التي تم إنشاؤها القيم المتوافقة هي"1:1"
و"3:4"
و"4:3"
و"9:16"
و"16:9"
. القيمة التلقائية هي"1:1"
.safety_filter_level
: يؤدي هذا الخيار إلى إضافة مستوى فلتر إلى فلترة الأمان. في ما يلي القيم الصالحة:"BLOCK_LOW_AND_ABOVE"
: يحظر هذا الخيار عندما تكون نتيجة الاحتمالات أو درجة الخطورةLOW
أوMEDIUM
أوHIGH
."BLOCK_MEDIUM_AND_ABOVE"
: يحظر هذا الخيار عندما تكون درجة الاحتمالية أو درجة الخطورةMEDIUM
أوHIGH
."BLOCK_ONLY_HIGH"
: حظر المحتوى عندما تكون درجة الاحتمالات أو درجة الخطورةHIGH
person_generation
: اسمح للنموذج بإنشاء صور لأشخاص. في ما يلي القيم المتوافقة:"DONT_ALLOW"
: حظر إنشاء صور للأشخاص"ALLOW_ADULT"
: إنشاء صور لأشخاص بالغين، ولكن ليس للأطفال هذا هو الخيار التلقائي.
وتتم دائمًا إضافة علامة مائية رقمية SynthID غير مرئية إلى الصور التي يتم إنشاؤها.
لغة الطلبات النصية
تتوفّر اللغات التالية لطلبات إدخال نص الإدخال:
- الإنجليزية (
en
)
الخطوات التالية
لمزيد من المعلومات حول كتابة الطلبات في Imagen، اطّلِع على دليل طلب Imagen.