Rozšířená realita? Nový AI model Mety dokáže ‚rozštěkat‘ fotku psa a chce přenášet i pachy

Společnost Meta, která provozuje Facebook, Instagram či WhatsApp, oznámila vytvoření nového AI modelu, který dokáže kombinovat data z více rozdílných vstupů – text, zvuk, obraz a data například ze senzorů měřících teplotu, hloubku prostoru nebo pohyb. Zatímco současné nejznámější modely obvykle propojují dva druhy dat, kdy na základě textů dokážou vytvořit například obrázek, model ImageBind se učí propojovat až šest dimenzí.

Online Plus Praha Sdílet na Facebooku Sdílet na Twitteru Sdílet na LinkedIn Tisknout Kopírovat url adresu Zkrácená adresa Zavřít

Ilustrační foto

Meta vytvořila nový AI model (ilustrační foto) | Zdroj: Profimedia

Nejnovější model v jednoduché ukázce na webu umí například na základě fotky psa přehrát zvuk štěkání nebo naopak po přehrání zvuků jedoucího vlaku ukáže fotku lokomotivy. Projekt zatím nemá žádné praktické využití a slouží jako základ k určitým pokusům, co by budoucí AI systémy mohly umět.

Přehrát

00:00 / 00:00

Poslechněte si celý pořad Online Plus Davida Slížka v audiozáznamu

Petr Koubský, redaktor Deníku N, přichází s domněnkou, proč s něčím takovým přichází právě společnost Meta. Podle něj je hlavním důvodem její zaměření na virtuální realitu.

„Toto je přesně věc, která by se ve virtuální realitě, pokud má fungovat dobře a přesvědčivě, velice hodila. Já soudím, že toto dělají proto, aby to jejich budoucí virtuální prostředí, ve kterém se budou uživatelé pohybovat, bylo co nejvíce podobné reálnému světu, aby dokázal reagovat tak, jako reaguje ‚reálný svět‘,“ říká Koubský.

Ponoření se do umělého světa

Podobné pokusy, jako je kombinace obrázků, textů, zvuků či videa, zkouší i další vývojáři velkých jazykových modelů. U ImageBind jsou ale zajímavá senzorická data či například data z různých měřáků teploty apod.

„Toto by mohlo být velmi zajímavé. Ono se to týká nejenom virtuální reality, ale i toho, čemu se říká rozšířená realita čili prolínání skutečného a virtuálního světa, protože možností, odkud snímat data, je velice mnoho. Nedávno měl značnou publicitu experiment se snímáním elektroencefalogramu a MRI dat z mozku živé osoby, které do určité míry mohly sloužit ke čtení myšlenek, jež potom převáděl do srozumitelné podoby právě velký jazykový model,“ uvádí Koubský.

Podle Koubského je ale důležité o takzvaném čtení myšlenek mluvit velmi opatrně, jelikož je na samém počátku a je výsledkem jednoho rozsáhlejšího pokusu, který byl proveden na univerzitě v Texasu. Je ale nutné, aby se takovýto výzkum potvrdil ještě na jiných pracovištích a převedl se do jakési použitelnější formy.

„Pokus se prováděl za pomoci funkční magnetické rezonance a pokusným osobám napřed dlouhé hodiny předčítali texty z podcastů a sledovali změny v mozku. Jazykový model poslouchal souběžně s člověkem daný text a zároveň sledoval ty změny. Když mu potom vypnuli text, tak protože těch změn viděl hodně a protože se zřejmě opakují, když dojde řeč na některé konkrétní pojmy, tak byl schopen s docela slušnou přesností odhadnout, co je právě v předčítaném textu, i když už ho neviděl,“ vysvětluje Petr Koubský.

Sci-fi v realitě?

Jde tedy nejen o proces, který je v úplném počátku, ale o nový model, který je velmi složitý a prozatím, jak uvádí Koubský, individuálně vytrénovaný. Není tedy možné přenést učení z jednoho člověka na druhého a je k tomu potřeba mnoho hodin tréninku.

V Číně poprvé zatkli muže kvůli zneužití umělé inteligence. Na ChatuGPT měl vyrábět falešné zprávy

Číst článek

„Není to tak, že by někdo někomu přiložil k hlavě přístroj a mohl si na obrazovce přečíst, na co daný člověk myslí. Napřed je potřeba ho desítky hodin na tento pokus chystat,“ říká Koubský.

V blogovém příspěvku k ImageBind se debatuje právě o tom, že chce do budoucna napojit další data jako dotyková čidla, řeč, čidla pachů anebo právě výstup z funkční magnetické rezonance.

„Tato cesta výzkumů je velice zajímavá na rozdíl od klasického využití jazykových modelů, které opravdu pracují hlavně s textem a jsou tudíž určeny pro uživatele, kteří sedí u počítače, koukají na obrazovku a ťukají do klávesnice. Toto je ale ponoření do umělého světa,“ dodává Petr Koubský.

Poslechněte si celý pořad, audio je nahoře v článku.

David Slížek, vkry Sdílet na Facebooku Sdílet na Twitteru Sdílet na LinkedIn Tisknout Kopírovat url adresu Zkrácená adresa Zavřít

Nejčtenější

Nejnovější články

Aktuální témata

Doporučujeme