11 GRUDNIA 2024 R.
Gemini umożliwia korzystanie z funkcji „Natural Language Computing” w aplikacji tldraw

Wykorzystanie interfejsu Gemini API do interakcji z naturalnym językiem
Interfejs API Gemini umożliwia deweloperom bezproblemową integrację zaawansowanych funkcji AI w ich aplikacjach, otwierając nowe możliwości w zakresie funkcjonalności i wygody użytkowników. W tym poście opisujemy, jak tldraw korzysta z Gemini, aby stworzyć rewolucyjną technologię „przetwarzania języka naturalnego” w ramach nowego projektu computer. Pokazuje to, jak szybko i łatwo startupy mogą integrować potężne AI za pomocą interfejsu Gemini API i pakietu canvas SDK pakietu tldraw. Zespół tldraw wkrótce wprowadzi komputer z modelem Gemini 1.5 Flash (dołącz do listy oczekujących) i obecnie tworzy prototypy z modelem Gemini 2.0 Flash na potrzeby przyszłych iteracji.
tldraw korzysta z interfejsu Gemini API, aby udostępnić możliwości konwersacyjnej AI programowaniu wizualnemu. Dzięki temu użytkownicy mogą generować treści i przetwarzać informacje za pomocą języka naturalnego. To otwiera przed nami nowe możliwości tworzenia bardziej intuicyjnych i skutecznych interfejsów opartych na AI, co pozwoli przesunąć granice komunikacji wizualnej.
Wizja stojąca za komputerem
Aplikacja tldraw, która ułatwia tworzenie diagramów i czyni je bardziej intuicyjnymi, wymyśliła bardziej naturalny sposób na interakcję z płótnem. Jego założyciel, Steve Ruiz, chciał wykorzystać potencjał pakietu SDK tldraw do tworzenia nieograniczonego płótna, aby stworzyć dynamiczne środowisko do pracy z generatywną AI. Ta wizja zaowocowała opracowaniem computer, eksperymentalnej aplikacji, w której użytkownicy tworzą przepływy pracy z bloków tekstu, obrazów i instrukcji. Podczas wykonywania informacje przepływają z jednego komponentu do następnego, a wyniki każdej generacji służą jako dane wejściowe dla następnej. W ten sposób powstają wydajne procesy, które się rozgałęziają, powtarzają i powtarzają się, aby wygenerować wyniki.
Budowanie za pomocą Gemini 2.0: szczegółowe informacje o komputerze
Komputer tldraw jest zbudowany na podstawie sieci połączonych ze sobą „komponentów” reprezentujących elementy na rysunku (pola tekstowe, obrazy, klipy audio itp.). Te komponenty są połączone strzałkami, które obrazują przepływ danych i przekształceń. Każdy komponent ma powiązane „procedury” – zestawy instrukcji wykonywanych na podstawie danych wejściowych z połączonych komponentów. Komponent może przyjmować dane z dowolnej liczby innych komponentów i przekazywać dane wyjściowe wielu innym komponentom, w tym samemu sobie. Ta architektura oparta na komponentach w połączeniu z potęgą i szybkością Gemini 2.0 Flash umożliwia tworzenie szybkich i elastycznych systemów, które mogą obsługiwać różne zadania.
Oto, jak prototypowanie w ramach Gemini 2.0 Flash wpłynęło na tę funkcję:
Błyskawiczne wykonywanie procedur: Gemini 2.0 Flash wykonuje procedury bardzo szybko. Na przykład komponent „Instrukcje” może zawierać instrukcję „Napisz krótki spot reklamowy”. Po chwili od momentu uruchomienia komponent wygeneruje skrypt z krokowymi instrukcjami, który można wykorzystać wielokrotnie do przekształcenia dowolnej kombinacji danych wejściowych w skrypt reklamowy. Następnie komponent użyje tego skryptu wraz z bieżącymi danymi wejściowymi (np. komponent „Tekst” z tekstem „Nowe inteligentne rękawice dla kotów na bazie AI”) do przesłania modelowi drugiego prompta, który posłuży jako dane wyjściowe. Ten wynik może zostać przekazany do innego połączonego komponentu „Tekst” w celu wyświetlenia, a także do innych połączonych komponentów, takich jak „Mowa” do konwersji tekstu na mowę, „Obraz” do generowania wizualizacji lub inne komponenty „Instrukcja” do dalszej transformacji.
Wiele kontekstów, wiele trybów: komputer tldraw wymagał maksymalnej szybkości, pojemności i funkcjonalności. Duże okno kontekstu w Gemini 2.0 Flash, w którym uwzględniane są wszystkie dane wejściowe, było kluczowe dla generowania wyników uwzględniających wszystkie dane wejściowe. Ważne było też wsparcie dla obrazów i plików obok promptów tekstowych.
Uporządkowane dane: przepływ danych między komponentami nie byłby możliwy bez przestrzegania jednego schematu. Uporządkowany format danych wyjściowych JSON z Gemini 2.0 Flash sprawia, że każdy komponent w przepływie danych może rozpoznawać dane dowolnego typu i wytwarzać dane wyjściowe w tej samej strukturze. Dzięki temu można uniknąć zatrzymywania się, płynnie wykonywać zadania i zapewnić niezawodne ukończenie nawet dużych przepływów danych.
Generowanie procedur dynamicznych: oprócz wykonywania zdefiniowanych wstępnie procedur Gemini 2.0 Flash może generować procedury dynamicznie. Użytkownik może wpisać „utwórz kampanię marketingową na podstawie tego opisu produktu”, a Gemini 2.0 Flash wygeneruje niezbędne kroki (procedury) i wymagane komponenty, tworząc przepływ pracy na kanwie na podstawie ogólnego zapytania użytkownika. Ta dynamiczna generacja otwiera ogromne możliwości w zakresie innowacyjnych wrażeń użytkowników i usprawnionych procesów.
Szybka wygrana dzięki innowacji
Szybka implementacja komputera przez tldraw pokazuje, jak wiele Gemini może zaoferować startupom: szybkie prototypowanie, ulepszone wrażenia użytkowników dzięki intuicyjnym interfejsom z językiem naturalnym oraz wydajne przetwarzanie danych strukturalnych dzięki modelom takim jak Gemini 2.0 Flash. Dzięki tej kombinacji małe zespoły mogą szybko i opłacalnie tworzyć innowacyjne funkcje oparte na AI.
„Chcemy pokazać, że każdy zespół może tworzyć ambitne projekty za pomocą pakietu SDK do tworzenia obrazów w tldraw. Gemini Flash to idealny silnik do szybkiego, multimodalnego narzędzia do tworzenia kanałów roboczych opartego na kanwie. Dzięki Gemini 2.0 i być może lepszej nazwie moglibyśmy jutro przedstawić komputer jako nowy startup”.
Zwiększanie możliwości aplikacji dzięki interfejsowi Gemini API
Zainspirowany sukcesem tldraw? Interfejs Gemini API udostępnia zaawansowane modele, takie jak Gemini 1.5 Pro, Gemini 1.5 Flash i teraz Gemini 2.0 Flash jako eksperymentalny model podglądu, aby zapewnić Twojej aplikacji innowacyjne funkcje AI. Zapoznaj się z dokumentacją interfejsu Gemini API i daj użytkownikom dostęp do AI.
tldraw to wyjątkowa i wydajna platforma dla profesjonalnych twórców, programistów i różnego rodzaju zespołów, która pozwala wcielać pomysły w życie. Dołącz do listy oczekujących na komputer. Poznaj przyszłość współpracy wizualnej już dziś.