Vývojářská konference Google I/O je každoročně jednou z nejvýznamnějších událostí v oblasti technologií a inovací. Letošní ročník, který se konal 14. května, přinesl řadu vzrušujících novinek s důrazem na pokroky v umělé inteligenci. Pojďme se na ně podívat.
Novinky v modelech Gemini
Rozšíření kontextového okna pro Gemini 1.5 Pro
Společnost Google představila zásadní inovaci svého AI modelu Gemini 1.5 Pro. Tento mode, původně uvedený v únoru s kapacitou zpracování informací v rozsahu 1 milionu tokenů, nyní zaznamenal významný pokrok. Sundar Pichai, generální ředitel společnosti Google, představil rozšíření kapacity kontextového okna modelu na 2 miliony tokenů. Toto rozšíření umožní modelu Gemini 1.5 Pro hlubší porozumění složitým dotazům, poskytování přesnějších odpovědí a efektivnější zvládání náročných úloh.
Gemini flash
Gemini flash je cenově dostupnější AI model, který je navržen tak, aby vyhovoval potřebám vývojářů a společností zaměřených na menší a specifičtější úlohy v oblasti zpracování přirozeného jazyka (NLP). Díky své optimalizované architektuře a nižším nárokům na výpočetní výkon představuje Gemini 1.5 Flash atraktivní volbu pro ty, kteří hledají efektivní a škálovatelné řešení pro své NLP projekty, aniž by museli investovat do nejvýkonnějších a nejnákladnějších modelů.
Integrace Gemini do Gmailu
Integrace modelu Gemini do Gmailu přináší zásadní zlepšení ve správě e-mailů a zvýšení produktivity. Díky pokročilým schopnostem modelu Gemini 1.5 Pro mohou uživatelé nyní analyzovat přílohy přímo v Gmailu, aniž by je museli otevírat. Tato funkce automaticky generuje stručná shrnutí a extrahuje klíčové poznatky z přiložených souborů, což výrazně usnadňuje orientaci v dlouhých e-mailových vláknech a umožňuje rychlé vyhledávání relevantních informací.
Další oznámené novinky
Veo, konkurent Sory od OpenAI
Google představil Veo, svůj dosud nejpokročilejší model pro generování videí, vyvinutý týmem Google DeepMind. Tento nástroj posouvá hranice umělé inteligence v oblasti tvorby videa na novou úroveň. Veo dokáže generovat vysoce kvalitní videa v rozlišení 1080p, která mohou trvat déle než jednu minutu, a to v široké škále filmových a vizuálních stylů. Díky pokročilému porozumění přirozenému jazyku a vizuální sémantice vytváří videa, která věrně zachycují tón a detaily zadaného textového popisu. Prozatím Veo ani Sora nejsou dostupné pro širokou veřejnost.
„Veo přimo konkuruje modelu Sora od OpenAI, který také generuje videa na základě textových popisů. Veo zdánlivě nabízí širší škálu filmových a vizuálních stylů a lepší zachycení detailů a tónu zadaného textu. Na druhou stranu, ve výsledných videích je stále znatelný “morphing” - tedy nerealistické měnění tvarů objektů v čase. Sora vypadá, že má toto výrazně lépe podchycené, na videích jsou objekty poměrně konzistentní,“ doplňuje Vojtěch Černý, pedagog Matematicko-fyzikální fakulty UK a ředitel inovací z IT firmy Algotech.
Dejte souborům hlas
Audio Overview je funkce, která využívá pokročilé technologie umělé inteligence k automatickému generování audio diskuzí na základě textového vstupu. Tato inovativní funkce, integrovaná do platformy NotebookLM, umožňuje uživatelům jednoduše nahrát různé typy dokumentů, jako jsou plány lekcí, výzkumné zprávy nebo třeba obchodní prezentace. Umělá inteligence pak analyzuje obsah těchto dokumentů a generuje stručné audio shrnutí klíčových bodů a myšlenek. Uživatelé mohou s těmito audio shrnutími interagovat a pokládat doplňující otázky. Bohužel NotebookLM je zatím dostupný pouze ve Spojených státech amerických.
Tvorba hudby pomocí AI
AI Sandbox využívá nejmodernější generativní AI technologie k tvorbě hudby a zvuků od základu. Tento nástroj umožňuje uživatelům experimentovat s hudební tvorbou pomocí jednoduchých textových zadání, která generují zvuky, melodie a rytmy. Díky pokročilým algoritmům strojového učení a rozsáhlým databázím zvuků a hudebních vzorů dokáže AI Sandbox produkovat vysoce kvalitní a rozmanité hudební výstupy, které znějí autenticky a profesionálně. Nástroj je zatím v průběhu vývoje.
Vylepšené google vyhledávání
Google na své domovské půdě spustil funkci nazvanou „AI Overviews,“ která využívá nejmodernější technologie generativní umělé inteligence k poskytování stručných a výstižných odpovědí na komplexní vyhledávací dotazy uživatelů. Tato funkce, poháněná pokročilým modelem Gemini, analyzuje obsah webových stránek a generuje přehledné souhrny informací, aniž by uživatelé museli procházet různé odkazy. AI Overviews tak představuje významný posun ve způsobu, jakým lidé interagují s vyhledávači a získávají informace online.
Ačkoli někteří vydavatelé vyjádřili obavy z potenciálního poklesu návštěvnosti jejich webů, Google věří, že AI Overviews naopak zvýší spokojenost uživatelů a jejich zájem o hledání dalších souvisejících informací. V neposlední řadě bude také zásadní, jakým způsobem Google do AI Overviews integruje reklamy.
Multimodální vyhledávání
Další velkou novinkou, kterou Google v rámci konference představil, je multimodální vyhledávání. Tato funkce umožňuje uživatelům pokládat dotazy nejen prostřednictvím textu, ale také pomocí videa. Představte si, že máte problém s určitým produktem a nevíte si s ním rady. Nyní stačí jednoduše natočit video, na kterém problém demonstrujete, a nahrát ho do vyhledávače. Google pomocí pokročilých algoritmů strojového učení analyzuje obsah videa a identifikuje problém. Na základě této analýzy pak poskytne relevantní výsledky, které vám pomohou problém vyřešit. Tato funkce je v současné době ve fázi testování. Funkce bude pomalu spouštěná ve Spojených státech a pro zbytek světa ke konci roku 2024.
Project Astra
Project Astra je ambiciózní projekt, který představuje nejnovější pokrok ve vývoji pokročilých AI asistentů. Ačkoli je Project Astra stále ve fázi prototypu, ukázka předvedená generálním ředitelem Google DeepMind, Demisem Hassabisem, naznačuje, že Google usiluje o vytvoření vlastní verze ikonického AI asistenta Tonyho Starka. Tento univerzální agent, schopný zpracovávat text, video, obraz a zvuk, slibuje revoluci v každodenním používání umělé inteligence.
Pokročilá konverzace s AI
Funkce Gemini Live umožňuje uživatelům vést přirozené konverzace s umělou inteligencí Gemini téměř v reálném čase. Tato inovativní funkce, která bude zpočátku dostupná předplatitelům Gemini Advanced, představuje významný krok vpřed v interakci mezi člověkem a AI. Gemini Live využívá pokročilé modely zpracování řeči, díky kterým dokáže reagovat na uživatelovy dotazy a pokyny s minimální prodlevou. Zatím nebylo jasně řečeno, kdy se funkce dočkáme, ale předpokládá se konec roku 2024.
„Uživatelé mohou s Gemini komunikovat vlastním tempem a dokonce ji přerušit uprostřed věty, aby požádali o upřesnění nebo doplnili další informace. Gemini se přizpůsobí a bude reagovat přirozeně, jako by vedla rozhovor s člověkem. Tato funkce otevírá dveře novým možnostem využití umělé inteligence v každodenním životě, od přípravy na pracovní pohovor až po trénink prezentace pro klienta, a opět se jedná o produkt, který přímo konkuruje (dosud nevydané verzi) GPT-4o od OpenAI,“ komentuje Černý.
Update open-source modelů
Google pokračuje ve svém úsilí zpřístupnit výkonné modely umělé inteligence širší vývojářské komunitě a oznámil Gemma 2, novou generaci svých open-source modelů. Gemma 2 přináší významná vylepšení v efektivitě a škálovatelnosti, umožňující běh modelů na jediném TPU nebo GPU. Vlajkovou lodí této řady je model s působivými 27 miliardami parametrů, který bude spuštěn v červnu. S Gemma 2 budou vývojáři schopni experimentovat a inovovat s nejmodernějšími modely AI, aniž by museli investovat do nákladné infrastruktury. Očekává se, že tato iniciativa podnítí novou vlnu inovací v oblasti aplikací umělé inteligence a urychlí přijetí AI v různých odvětvích. Google se zavázal poskytovat pravidelné aktualizace a vylepšení modelů Gemma 2.
Gems
Za pár měsíců předplatitelé Gemini Advanced budou možnost vytvářet tzv. „Gems“ – specializované chatboty pro různé účely, podobně jako GPTs od společnosti OpenAI. Uživatelé budou moci definovat vlastnosti, schopnosti a zaměření svých Gems, ať už se jedná o osobního fitness trenéra, pomocníka v kuchyni nebo kreativního spisovatele. Gems budou fungovat jako personalizovaní digitální asistenti, kteří rozumí specifickým potřebám a preferencím uživatele. (28.5.2024)