رای خود را به جایزه انتخاب مردم در مسابقه توسعه دهندگان Gemini API بدهید! الان رای بده

این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

به اشتراک بگذارید

20 مه 2025

Toonsutra کمیک ها را زنده می کند: یک تجربه خواندنی همه جانبه با پشتیبانی از Gemini API، Gemini 2.5 Pro Preview و Lyria 2

شراد داورجان | ویشال آناند

بنیانگذاران تونسوترا

آونیت سینگ

مدیر محصول، نوآوری شریک Google

Toonsutra، بزرگترین مقصد هند برای وبکمیک ها و رمان های گرافیکی، ماموریت دارد تا مخاطبان جهانی را با جهان روایی گسترده وب کمیک ها با تمرکز ویژه بر دسترسی به داستان های کلاس جهانی به زبان های هندی مرتبط کند. تونسوترا با انگیزه برای تعمیق درگیری مخاطب، پرسید: چگونه می‌توانیم تجربه کمیک خوانی سنتی را به یک سفر سینمایی همهجانبه تبدیل کنیم که در آن صدا، موسیقی و داستان به طور طبیعی به زبانی که خوانندگان رویا دارند، جریان دارد؟

ساخت فصل بعدی در داستان گویی تعاملی

این سوال به کانون اصلی Toonsutra تبدیل شد. بازخورد از جامعه آنها تمایل به تعامل عمیق تر و دسترسی گسترده تر را برجسته می کند. Toonsutra با درک پتانسیل عظیم هوش مصنوعی و با حمایت صندوق آینده هوش مصنوعی گوگل، با تیم‌های آزمایشگاهی و شریک نوآوری در Google همکاری کرد. آنها با هم از Gemini API استفاده می‌کنند که دارای پیش‌نمایش Gemini 2.5 Pro و Lyria 2 (مدل تولید موسیقی Google DeepMind) است تا تجربه وب کمیک را برای طرفداران در سراسر جهان دوباره ابداع کنند.

این همکاری که در Google I/O رونمایی شد، یک تجربه کمیک مبتنی بر هوش مصنوعی را به نمایش می‌گذارد که در آن داستان‌ها فقط در صفحه نیستند. آنها پاسخ می دهند و درگیر می شوند و تصاویر ثابت را به روایت های صوتی پویا تبدیل می کنند:

روایت هوش مصنوعی تطبیقی: Gemini 2.5 Pro Preview روایت هوش مصنوعی را ایجاد می کند که با سرعت خواندن جریان دارد و شخصیت ها را با صداهای متمایز زنده می کند. این امر به ویژه برای خوانندگان هندی تأثیرگذار است، جایی که تفاوت های ظریف فرهنگی در زبان به طور گسترده ای متفاوت است. قابلیت‌های تطبیقی و چندزبانه Gemini 2.5 Pro، همراه با موتور زمینه شخصیت اختصاصی Toonsutra، داستان‌گویی منسجم و ظریف را تضمین می‌کند.
مناظر صوتی پویا: از طریق درک چندوجهی Gemini 2.5 Pro Preview و قابلیت‌های تولید صدای بومی Lyria و Gemini، این پلتفرم مناظر صوتی همه‌جانبه‌ای از جمله موسیقی سفارشی، صداگذاری، و صداهای حرکتی تولید می‌کند - از صدای تق تق شمشیر تا فضای یک بازار شلوغ.
تعامل پیشرفته: عناصر مجهز به پیش‌نمایش Gemini 2.5 Pro به خوانندگان این امکان را می‌دهند که گفتگوهای منحصربه‌فردی را راه‌اندازی کنند، جزئیات پنهان را کاوش کنند، یا به‌طور نامحسوس بر موضوعات روایی تأثیر بگذارند و از تجربه‌های متنوع خواندن اطمینان حاصل کنند.

جزئیات فنی

این پروژه یک رویکرد جدید را برای تولید خودکار صدای همهجانبه برای کمیک های دیجیتال، کامل با ابرداده های فضایی همگام، معرفی می کند. در هسته آن یک معماری چند عاملی است که بر اساس Gemini 2.5 Pro Preview ساخته شده است که شامل عوامل تخصصی است: استخراج کننده زمینه کمیک، راوی، آهنگساز موسیقی، مدیر موسیقی، و عوامل جلوه های صوتی.

گردش کار با Comic Context Extractor Agent شروع می شود که چندین فصل کمیک را برای یک خلاصه، ژانر و ویژگی های شخصیت تجزیه و تحلیل می کند. سپس پانل ها با مرزهای مشخص استخراج می شوند. عامل راوی دیالوگ‌ها را از رونوشت‌ها با این پانل‌ها، که با بافت شخصیت غنی‌شده، توسط Gemini Native Audio صداگذاری می‌شوند، تراز می‌کند. همزمان، Music Composer Agent، با الهام از امتیازدهی فیلم، از پیش‌نمایش Gemini 2.5 Pro برای تشخیص تم‌ها و احساسات در سر فصل‌ها استفاده می‌کند و آنها را به پیام‌های موسیقی برای Lyria تبدیل می‌کند تا نمرات پس‌زمینه ایجاد کند. نماینده Music Director این موسیقی را به پنل‌های خاص نگاشت می‌کند، در حالی که Sound Effects Agent پانل‌ها را به برچسب‌های جلوه‌های صوتی مربوطه، بازیابی شده از یک پایگاه داده، نگاشت می‌کند.

این گردش کار در یک فایل JSON با جزئیات مختصات پانل، صداگذاری، جلوه‌های صوتی و موسیقی همگام‌سازی‌شده به قسمت جلویی Toonsutra ارائه می‌شود.

یک موفقیت کلیدی توانایی Gemini برای تولید بومی این صدای سینمایی به زبان‌های هندی است که با هندی شروع می‌شود و ماموریت دسترسی Toonsutra را پیش می‌برد.

"این یک مورد بسیار سرگرم کننده و هیجان انگیز برای استفاده از قابلیت های چندوجهی و چند زبانه Gemini بوده است. استفاده از مدل های قدرتمند زبان بزرگ گوگل برای درک معنایی تصاویر، کاراکترها، ترسیم طرح ها و مضامین مکانیزمی عالی برای متراکم کردن یک رسانه ورودی در اصول اولیه آن بوده است. نسل موسیقی قدرتمند Lyria و زبان مادری جمینی به ویژه در زبان هندی توانایی ارائه تجربه را داشتیم. با مشارکت Toonsutra”

- Avneet (PM، Google Partner Innovation)

از Google I/O تا دسترسی عمومی

نمایشگاه Google I/O یک نقطه عطف باورنکردنی بود که نشان داد چگونه هوش مصنوعی می تواند اساساً محتوای دیجیتال را ارتقا دهد. برای تونسوترا، این فقط فصل اول است.

همانطور که تیم ما اغلب می‌گوید: "چشم‌انداز ما در Toonsutra همیشه این بوده است که کمیک‌ها را جذاب‌تر و در دسترس‌تر برای همه، در همه جا کنیم. این همکاری با Google، جهشی عظیم به سوی این چشم‌انداز است. توانایی ایجاد این تجربیات خواندنی عمیقاً غوطه‌ور، مبتنی بر هوش مصنوعی، مستقیماً به بازخوردهای جامعه ما می‌پردازد و با نوآوری‌های ما سرعت می‌بخشد. برای ادغام آن در برنامه Toonsutra، در نهایت حتی یک API بالقوه را برای توانمندسازی سایر سازندگان کاوش کنید."

Toonsutra اکنون بر روی ادغام مرحله‌ای از این ویژگی‌ها در برنامه اصلی آن‌ها متمرکز شده است و از نزدیک به بازخورد جامعه گوش می‌دهد. آنها معتقدند که نه تنها پلتفرم خود را غنی می کنند، بلکه به ایجاد طرحی جدید برای محتوای تقویت شده با هوش مصنوعی کمک می کنند.

آماده ساختن؟ اسناد Gemini API را کاوش کنید و همین امروز با Google AI Studio شروع به کار کنید.

Toonsutra یکی از شرکت‌کنندگان در صندوق آینده هوش مصنوعی گوگل است که در استارت‌آپ‌های بلندپرواز سرمایه‌گذاری می‌کند و با آن‌ها همکاری می‌کند تا آینده‌ای در هوش مصنوعی ایجاد کند.

هاروی

هاروی از BigLaw Bench خود برای نشان دادن توانایی استثنایی Gemini 2.5 Pro برای انجام وظایف استدلال قانونی پیچیده مانند بررسی دقیق و پیش نویس دعاوی استفاده می کند.

Toonsutra کمیک ها را زنده می کند: یک تجربه خواندنی همه جانبه با پشتیبانی از Gemini API، Gemini 2.5 Pro Preview و Lyria 2

ساخت فصل بعدی در داستان گویی تعاملی

جزئیات فنی

از Google I/O تا دسترسی عمومی

مطالعات موردی مرتبط