שיתוף

20 במאי 2025

Toonsutra Brings Comics to Life: חוויית קריאה מעשירה שמבוססת על Gemini API, תצוגה מקדימה של Gemini 2.5 Pro ו-Lyria 2

Sharad Devarajan | Vishal Anand

המייסדים של Toonsutra

Avneet Singh

מנהל מוצר, Google Partner Innovation

תמונה ראשית (Hero) של קטע Showcase ב-Cartwheel

Toonsutra היא היעד הגדול ביותר בהודו לקריאת קומיקס באינטרנט ורומנים גרפיים. המטרה של Toonsutra היא לחבר קהל גלובלי ליקום הנרטיבי העצום של קומיקס באינטרנט, תוך התמקדות מיוחדת ביצירת סיפורים ברמה עולמית שיהיו נגישים בשפות הודיות. כדי לעורר עניין בקרב הקהל, ב-Toonsutra שאלו את עצמם: איך אפשר להפוך את חוויית הקריאה המסורתית של קומיקס למסע קולנועי מעמיק שבו הקול, המוזיקה והסיפור זורמים באופן טבעי בשפה שהקוראים חולמים עליה?

פרק חדש בסיפור של הקולנוע האינטראקטיבי

השאלה הזו הפכה לנושא המרכזי של Toonsutra. המשוב מהקהילה שלהם הדגיש את הצורך שלהם באינטראקציה מעמיקה יותר ובנגישות רחבה יותר. ב-Toonsutra מבינים את הפוטנציאל העצום של AI, ומקבלים תמיכה מקרן AI Futures של Google. לכן, הם יצרו שותפות עם צוותים של Google Labs ו-Partner Innovation. יחד, הם משתמשים ב-Gemini API, שכולל את גרסת הטרום-השקה של Gemini 2.5 Pro ו-Lyria 2 (המודל ליצירת מוזיקה של Google DeepMind) כדי להמציא מחדש את חוויית הקומיקס באינטרנט למעריצים ברחבי העולם.

שיתוף הפעולה, שהוצג ב-Google I/O, מציג חוויית קריאת קומיקס מבוססת-AI שבה הסיפורים לא רק מוצגים בדף, אלא מגיבים ומעוררים עניין, וממירים תמונות סטטיות לדיבור דינמי:

  • קריינות דינמית מבוססת-AI: בגרסת הטרום-השקה של Gemini 2.5 Pro, הקריינות מבוססת-AI משתנה בהתאם למהירות הקריאה, ומאפשרת להפיח חיים בדמויות באמצעות קולות ייחודיים. הדבר משפיע במיוחד על קוראים בהודו, שבה יש הבדלים תרבותיים רבים בשפה. היכולות ההסתגלותיות והרב-לשוניות של Gemini 2.5 Pro, בשילוב עם מנוע ההקשר הייחודי של Toonsutra לדמויות, מבטיחים כתיבה עקבית ומדויקת של סיפורים.
  • סאונדסקיפים דינמיים: באמצעות ההבנה הרב-מודאלית של Gemini 2.5 Pro Preview ויכולות היצירה המקוריות של אודיו ב-Lyria וב-Gemini, הפלטפורמה יוצרת סאונדסקיפים שגורמים לכם להרגיש כאילו אתם נמצאים במקום. הסאונדסקיפים כוללים מוזיקה בהתאמה אישית, קריינות וצלילים של תנועה – החל מצלצול של חרב ועד לאווירה של שוק תוסס.
  • אינטראקטיביות משופרת: רכיבים שמבוססים על Gemini 2.5 Pro Preview מאפשרים לקוראים להפעיל דיאלוג ייחודי, לחקור פרטים מוסתרים או להשפיע בצורה מתוחכמת על חוטי העלילה, וכך מבטיחים חוויות קריאה מגוונות.

פרטים טכניים

בפרויקט הזה מוצגת גישה חדשנית ליצירת אודיו סוחף באופן אוטומטי עבור קומיקסים דיגיטליים, עם מטא-נתונים מרחביים מסונכרנים. בלב המערכת נמצאת ארכיטקטורה של סוכנים מרובים שמבוססת על Gemini 2.5 Pro Preview, וכוללת סוכנים מיוחדים: 'חילוץ ההקשר של הקומיקס', 'הקריין', 'מלחין המוזיקה', 'מנהל המוזיקה' ו'סוכנים של אפקטים קוליים'.

תהליך העבודה מתחיל בסוכנות לחילוץ הקשר של קומיקס, שמנתחת כמה פרקים של קומיקס כדי ליצור סיכום מקיף, ז'אנר ומאפייני אופי. לאחר מכן, המערכת מחלצת חלוניות עם גבולות מוגדרים. הסוכן של הקריינות מתאים את הדיאלוג מהתמליל לחלוניות האלה, שמועברות על ידי Gemini Native Audio עם הקשר של הדמות. במקביל, הסוכן של מלחין המוזיקה, בהשראת הלחנת פסקולים לסרטים, משתמש ב-Gemini 2.5 Pro Preview כדי לזהות נושאים ורגשות בפרקים השונים, ומתרגם אותם להנחיות מוזיקה כדי שמערכת Lyria תיצור פסקולים לרקע. הסוכן של מנהל המוזיקה ממפה את המוזיקה הזו לחלוניות ספציפיות, בעוד שהסוכן של אפקטים קוליים ממפה חלוניות לתגים רלוונטיים של אפקטים קוליים, שאוחזרו ממסד נתונים.

תהליך העבודה הזה מסתיים בקובץ JSON שמפרט את הקואורדינטות של הלוחות, הקריינות, האפקטים הקוליים והמוזיקה המסונכרנת, שנשלחים לקצה הקדמי של Toonsutra.

אחד הגורמים העיקריים להצלחה הוא היכולת של Gemini ליצור אודיו קולנועי כזה בשפות הודו, החל מהינדית, תוך המשך מילוי המשימה של Toonsutra בנושא נגישות.

"זה היה תרחיש לדוגמה מהנה ומרגש שבו השתמשנו ביכולות ה-multimodal והשפות השונות של Gemini. שימוש במודלים גדולים של שפה (LLM) של Google כדי להבין באופן סמנטי תמונות, דמויות, סקיצות ונושאים, הוא מנגנון מצוין לצמצום מדיה של קלט ליסודות שלה. היכולות החזקות של Lyria ליצירת מוזיקה והיכולות הקוליות המקוריות של Gemini, במיוחד בשפות הודו, שיפרו את חוויית השימוש הסופית שיכולנו לספק בשיתוף עם Toonsutra"

– Avneet (מנהלת פרויקטים, Google Partner Innovation)

מ-Google I/O ועד לזמינות לכלל המשתמשים

כנס Google I/O היה ציון דרך מדהים, שבו הראינו איך AI יכול לשפר באופן יסודי את התוכן הדיגיטלי. ב-Toonsutra, זה רק הפרק הראשון.

כפי שהצוות שלנו אומר לעיתים קרובות: "החזון שלנו ב-Toonsutra תמיד היה ליצור קומיקס מעניינים ונגישים יותר לכולם, בכל מקום. שיתוף הפעולה עם Google הוא צעד משמעותי בדרך להשגת החזון הזה. היכולת ליצור חוויות קריאה עמוקות ומרתקות מבוססות-AI מתייחסת ישירות למשוב מהקהילה שלנו ומאיצה את החדשנות שלנו. אנחנו שמחים מאוד מהתגובות שקיבלנו ב-I/O, ואנחנו רוצים לשלב את התכונה הזו באפליקציית Toonsutra. בסופו של דבר, אנחנו גם שוקלים לפתח ממשק API כדי לאפשר ליוצרים אחרים להשתמש בתכונה הזו".

צוות Toonsutra מתמקד עכשיו בשילוב של התכונות האלה באפליקציה הראשית שלהם בשלבים, תוך הקשבה למשוב מהקהילה. לדעתם, הם לא רק מעשירים את הפלטפורמה שלהם, אלא גם עוזרים ליצור תוכנית חדשה ליצירת תוכן משופר באמצעות AI.

רוצים לבנות? כדאי לעיין במסמכי העזרה של Gemini API ולהתחיל להשתמש ב-Google AI Studio כבר היום.

Toonsutra היא חברה שמשתתפת בקרן AI Futures Fund של Google, שמשקיעה בסטארט-אפים שאפתניים שמפתחים את הדור הבא של ה-AI, ועובדת איתם בשיתוף פעולה.