20 مه 2025
Toonsutra کمیک ها را زنده می کند: یک تجربه خواندنی همه جانبه با پشتیبانی از Gemini API، Gemini 2.5 Pro Preview و Lyria 2

Toonsutra، بزرگترین مقصد هند برای وبکمیک ها و رمان های گرافیکی، ماموریت دارد تا مخاطبان جهانی را با جهان روایی گسترده وب کمیک ها با تمرکز ویژه بر دسترسی به داستان های کلاس جهانی به زبان های هندی مرتبط کند. تونسوترا با انگیزه برای تعمیق درگیری مخاطب، پرسید: چگونه میتوانیم تجربه کمیک خوانی سنتی را به یک سفر سینمایی همهجانبه تبدیل کنیم که در آن صدا، موسیقی و داستان به طور طبیعی به زبانی که خوانندگان رویا دارند، جریان دارد؟
ساخت فصل بعدی در داستان گویی تعاملی
این سوال به کانون اصلی Toonsutra تبدیل شد. بازخورد از جامعه آنها تمایل به تعامل عمیق تر و دسترسی گسترده تر را برجسته می کند. Toonsutra با درک پتانسیل عظیم هوش مصنوعی و با حمایت صندوق آینده هوش مصنوعی گوگل، با تیمهای آزمایشگاهی و شریک نوآوری در Google همکاری کرد. آنها با هم از Gemini API استفاده میکنند که دارای پیشنمایش Gemini 2.5 Pro و Lyria 2 (مدل تولید موسیقی Google DeepMind) است تا تجربه وب کمیک را برای طرفداران در سراسر جهان دوباره ابداع کنند.
این همکاری که در Google I/O رونمایی شد، یک تجربه کمیک مبتنی بر هوش مصنوعی را به نمایش میگذارد که در آن داستانها فقط در صفحه نیستند. آنها پاسخ می دهند و درگیر می شوند و تصاویر ثابت را به روایت های صوتی پویا تبدیل می کنند:
- روایت هوش مصنوعی تطبیقی: Gemini 2.5 Pro Preview روایت هوش مصنوعی را ایجاد می کند که با سرعت خواندن جریان دارد و شخصیت ها را با صداهای متمایز زنده می کند. این امر به ویژه برای خوانندگان هندی تأثیرگذار است، جایی که تفاوت های ظریف فرهنگی در زبان به طور گسترده ای متفاوت است. قابلیتهای تطبیقی و چندزبانه Gemini 2.5 Pro، همراه با موتور زمینه شخصیت اختصاصی Toonsutra، داستانگویی منسجم و ظریف را تضمین میکند.
- مناظر صوتی پویا: از طریق درک چندوجهی Gemini 2.5 Pro Preview و قابلیتهای تولید صدای بومی Lyria و Gemini، این پلتفرم مناظر صوتی همهجانبهای از جمله موسیقی سفارشی، صداگذاری، و صداهای حرکتی تولید میکند - از صدای تق تق شمشیر تا فضای یک بازار شلوغ.
- تعامل پیشرفته: عناصر مجهز به پیشنمایش Gemini 2.5 Pro به خوانندگان این امکان را میدهند که گفتگوهای منحصربهفردی را راهاندازی کنند، جزئیات پنهان را کاوش کنند، یا بهطور نامحسوس بر موضوعات روایی تأثیر بگذارند و از تجربههای متنوع خواندن اطمینان حاصل کنند.
جزئیات فنی
این پروژه یک رویکرد جدید را برای تولید خودکار صدای همهجانبه برای کمیک های دیجیتال، کامل با ابرداده های فضایی همگام، معرفی می کند. در هسته آن یک معماری چند عاملی است که بر اساس Gemini 2.5 Pro Preview ساخته شده است که شامل عوامل تخصصی است: استخراج کننده زمینه کمیک، راوی، آهنگساز موسیقی، مدیر موسیقی، و عوامل جلوه های صوتی.
گردش کار با Comic Context Extractor Agent شروع می شود که چندین فصل کمیک را برای یک خلاصه، ژانر و ویژگی های شخصیت تجزیه و تحلیل می کند. سپس پانل ها با مرزهای مشخص استخراج می شوند. عامل راوی دیالوگها را از رونوشتها با این پانلها، که با بافت شخصیت غنیشده، توسط Gemini Native Audio صداگذاری میشوند، تراز میکند. همزمان، Music Composer Agent، با الهام از امتیازدهی فیلم، از پیشنمایش Gemini 2.5 Pro برای تشخیص تمها و احساسات در سر فصلها استفاده میکند و آنها را به پیامهای موسیقی برای Lyria تبدیل میکند تا نمرات پسزمینه ایجاد کند. نماینده Music Director این موسیقی را به پنلهای خاص نگاشت میکند، در حالی که Sound Effects Agent پانلها را به برچسبهای جلوههای صوتی مربوطه، بازیابی شده از یک پایگاه داده، نگاشت میکند.
این گردش کار در یک فایل JSON با جزئیات مختصات پانل، صداگذاری، جلوههای صوتی و موسیقی همگامسازیشده به قسمت جلویی Toonsutra ارائه میشود.
یک موفقیت کلیدی توانایی Gemini برای تولید بومی این صدای سینمایی به زبانهای هندی است که با هندی شروع میشود و ماموریت دسترسی Toonsutra را پیش میبرد.
"این یک مورد بسیار سرگرم کننده و هیجان انگیز برای استفاده از قابلیت های چندوجهی و چند زبانه Gemini بوده است. استفاده از مدل های قدرتمند زبان بزرگ گوگل برای درک معنایی تصاویر، کاراکترها، ترسیم طرح ها و مضامین مکانیزمی عالی برای متراکم کردن یک رسانه ورودی در اصول اولیه آن بوده است. نسل موسیقی قدرتمند Lyria و زبان مادری جمینی به ویژه در زبان هندی توانایی ارائه تجربه را داشتیم. با مشارکت Toonsutra”
از Google I/O تا دسترسی عمومی
نمایشگاه Google I/O یک نقطه عطف باورنکردنی بود که نشان داد چگونه هوش مصنوعی می تواند اساساً محتوای دیجیتال را ارتقا دهد. برای تونسوترا، این فقط فصل اول است.
همانطور که تیم ما اغلب میگوید: "چشمانداز ما در Toonsutra همیشه این بوده است که کمیکها را جذابتر و در دسترستر برای همه، در همه جا کنیم. این همکاری با Google، جهشی عظیم به سوی این چشمانداز است. توانایی ایجاد این تجربیات خواندنی عمیقاً غوطهور، مبتنی بر هوش مصنوعی، مستقیماً به بازخوردهای جامعه ما میپردازد و با نوآوریهای ما سرعت میبخشد. برای ادغام آن در برنامه Toonsutra، در نهایت حتی یک API بالقوه را برای توانمندسازی سایر سازندگان کاوش کنید."
Toonsutra اکنون بر روی ادغام مرحلهای از این ویژگیها در برنامه اصلی آنها متمرکز شده است و از نزدیک به بازخورد جامعه گوش میدهد. آنها معتقدند که نه تنها پلتفرم خود را غنی می کنند، بلکه به ایجاد طرحی جدید برای محتوای تقویت شده با هوش مصنوعی کمک می کنند.
آماده ساختن؟ اسناد Gemini API را کاوش کنید و همین امروز با Google AI Studio شروع به کار کنید.
Toonsutra یکی از شرکتکنندگان در صندوق آینده هوش مصنوعی گوگل است که در استارتآپهای بلندپرواز سرمایهگذاری میکند و با آنها همکاری میکند تا آیندهای در هوش مصنوعی ایجاد کند.
هاروی
هاروی از BigLaw Bench خود برای نشان دادن توانایی استثنایی Gemini 2.5 Pro برای انجام وظایف استدلال قانونی پیچیده مانند بررسی دقیق و پیش نویس دعاوی استفاده می کند.