Hoci jazykový model DeepSeek získal výraznejšiu pozornosť až začiatkom roka 2025, vo svete umelej inteligencie nejde o novinku. Jeho prvá verzia vznikla ako vedľajší projekt čínskej startupovej spoločnosti už v máji 2023. Chatbotový variant bol predstavený o mesiac neskôr a v súčasnosti funguje už aj obrázkový generátor Janus-Pro-7B.
Projekt je financovaný čínskym hedžovým fondom High-Flyer a podobne ako alternatívne open-source modely zostáva dostupný bez poplatkov. Podľa aktuálnych hodnotení by mal model z technologického hľadiska dosahovať parametre porovnateľné s najlepšími konkurenčnými modelmi na trhu. V Číne sú pokroky spoločnosti DeepSeek vnímané ako dôkaz rastúcej technologickej nezávislosti krajiny.
Bol naozaj taký lacný?
Vývoj pokročilých jazykových modelov je náročný a doposiaľ si vyžadoval investície v rádoch desiatok miliónov dolárov. Napríklad spoločnosť OpenAI údajne do tréningu ChatGPT investovala približne 100 miliónov amerických dolárov. Mnohých preto zaskočilo tvrdenie spoločnosti DeepSeek, že ich model bol vyvinutý iba za zlomok tejto sumy – údajne len šesť miliónov dolárov.
Toto číslo je však zavádzajúce. Viaceré analýzy poukázali na to, že suma pokrýva len pretrénovaciu fázu, čo predstavuje malú časť celkových nákladov. Podľa odhadu nezávislej výskumnej spoločnosti SemiAnalysis, ktorý zahŕňa aj náklady na hardvér, výskum, vývoj a testovanie, sa celková cena projektu pohybuje na úrovni minimálne 1,6 miliardy dolárov.
Výkonnosť modelu a čínska cenzúra
Veľké jazykové modely (LLM) sú hodnotené podľa rôznych parametrov, známych ako benchmarky. Tie skúmajú schopnosť modelov porozumieť textu a generovať ho, riešiť matematické zadania, programovať a vykonávať logické úlohy. V týchto testoch DeepSeek dosahuje výsledky porovnateľné s pokročilými modelmi, ako je ChatGPT od OpenAI. Pri testovaní benchmarku MATH-500 zameranom na riešenie matematických problémov dokonca dosiahol 97,3 % úspešnosť. Prekonal tak aj najlepšie modely na trhu.
Programy generatívnej AI sa v zásade trénujú na obrovskom množstve verejne dostupných dát, ktoré však môžu byť emočne zafarbené alebo fakticky nesprávne. To môže viesť k šíreniu dezinformácií a predsudkov. Vývojári preto musia svoje modely pravidelne testovať na odolnosť voči dezinformáciám, nenávistnému obsahu a propagande. V tomto smere DeepSeek výrazne zaostáva. Vo výskume odborníkov zo spoločnosti Cisco a University of Pennsylvania nedokázal model z 50 testovaných škodlivých zadaní zablokovať ani jedno, čo naznačuje potenciál pre zneužitie na šírenie nepravdivých informácií.
Rovnako ako mnoho iných čínskych AI modelov, aj DeepSeek je naučený odpovedať v súlade s oficiálnymi postojmi Čínskej komunistickej strany. Na dnes už virálnom videu je jasne vidieť, ako sa model vyhýba otázke o udalostiach na Námestí nebeského pokoja z roku 1989. Podobne odpovedá aj na ďalšie politicky citlivé otázky pre čínsky komunistický režim, napríklad v kontexte ľudských práv etnických menšín alebo statusu Taiwanu.
Bezpečnostné riziká používania DeepSeek
Okrem cenzúry je však používanie modelu DeepSeek spojené aj so závažnejšími bezpečnostnými hrozbami. Na tie upozornil aj slovenský Národný bezpečnostný úrad (NBÚ). Vo svojom vyhlásení z 31. januára uviedol, že DeepSeek od svojich používateľov zbiera dáta v oveľa väčšom rozsahu ako konkurencia.
Informácie, ktoré model zbiera, zahŕňajú „presné časovanie stlačení jednotlivých klávesov, zadané pokyny (prompty), heslá, vkladané obrázky, audio súbory, dokumenty, ale aj IP adresu počítača, z ktorého je služba DeepSeek využívaná“. Podľa zásad ochrany osobných údajov sú tieto dáta následne ukladané na serveroch v Číne. Americká spoločnosť Wiz dokonca odhalila verejne prístupnú databázu, ktorá obsahovala viac než milión záznamov obsahujúcich citlivé informácie o používateľoch modelu DeepSeek.
Týmto čínsky AI model jasne porušuje európske nariadenie o ochrane osobných údajov (GDPR). To vyžaduje, aby boli osobné údaje občanov EÚ spracovávané transparentne a so súhlasom používateľov. Vzhľadom na obavy o osobné údaje používateľov DeepSeek nedávno zablokoval napríklad taliansky bezpečnostný úrad Garante. Ten v roku 2023 podobnými krokmi pozastavil aj používanie služby ChatGPT, až pokým OpenAI nezaviedol opatrenia na zvýšenie transparentnosti a ochrany súkromia. V kontexte modelu DeepSeek vyjadrili rovnaké obavy Francúzsko či Írsko.
Naopak krajiny ako Rusko a Čína v oblasti umelej inteligencie plánujú spolupracovať v rámci spoločných projektov. Podľa dostupných informácií má ísť o prepojenie výskumníkov z DeepSeek a Sberbank s cieľom konkurovať americkej dominancii v oblasti umelej inteligencie.
Bezpečnostné hrozby v súvislosti s čínskymi spoločnosťami pritom existovali už v minulosti. Príkladom môže byť spoločnosť ByteDance stojaca za sociálnou sieťou TikTok, ktorá je podľa čínskych zákonov okrem iného povinná zdieľať zhromaždené údaje s čínskou vládou. O to dôležitejšia je preto legislatíva, ktorá činnosť týchto spoločností reguluje. V rámci EÚ je to napríklad zákon o digitálnych službách (DSA), ktorý chráni používateľov pred možným zneužitím ich osobných údajov.
Článok vznikol s podporou Holandského veľvyslanectva na Slovensku.
