Mávnutí křídel motýlích – Může (celý) internet mluvit česky?

Přibližně 1,2 miliardy pozemšťanů se chce naučit cizí jazyk. To je obrovská skupina motivovaných lidí, kteří tráví učením dlouhé hodiny a utrácejí za to hromadu peněz. Nešlo by jejich čas a píli využít? Jak dlouho by asi trvalo, než miliarda lidí přeloží celý existující web?

Síla davu

Podobné otázky si klade Luis Von Ahn, profesor počítačových věd na americké Carnegie Mellon University. Dvaatřicetiletý vědec, původem z Guatemaly (loni zvolený magazínem Foreign Policy za nejvlivnějšího intelektuála Latinské Ameriky), je autorem ambiciózního projektu Duolingo: internetové stránky, na které se budou lidé zadarmo učit cizí jazyk formou praktických překladů. Překládat ale nebudou věty z učebnic, nýbrž reálný obsah webových stránek.

Zapojení davu do řešení rozsáhlých problémů, kdy každý z účastníků přinese malinkou část, ale dohromady jde o obrovský pokrok, se obecně říká crowdsourcing. Profesor Von Ahn preferuje ve spojení s počítači spíše výraz „human computing“ (volně přeloženo jako lidská výpočetní síla). Má v tomto oboru značné zkušenosti. V několika posledních letech se mu povedlo zdánlivě nemožné: zapojil stovky milionů lidí do procesu digitalizace knih.

Se systémem CAPTCHA jsme se někdy setkali snad všichni. Opíšete několik znaků z obrázkového podkladu, čímž počítači při odesílání formuláře či při registraci do nějaké služby dokážete, že jste opravdu fyzická bytost. Tím zabraňujete například rozesílání nevyžádané pošty s reklamou, neoprávněnému hlasování v  anketách nebo třeba zahlcování diskusních fór, které může provádět automatizovaný program. Denně opíše obrázky systému CAPTCHA na světě asi 200 milionů lidí, každý s tím stráví zhruba deset vteřin. To je spousta nevyužitého času.

V roce 2007 přišel profesor Von Ahn s vylepšením, které nazval reCaptcha. Zdokonalený systém nabídne uživateli dva výrazy, z nichž jeden je vždy slovo, které počítač, převádějící tištěné dokumenty do elektronické formy, někde na světě nerozeznal. V procesu digitalizace se to stává často – počítač slovo v naskenovaných grafických podkladech nedokáže přečíst a musí mu pomoci člověk, což je zpravidla zdlouhavé a neefektivní. Opsáním slov tak nejen identifikujete počítači sebe sama jako myslící bytost, ale pomůžete mu zároveň splnit úkol. Systém se ujal skvěle, začalo jej využívat na 350 000 internetových stránek. Jejich uživatelé tak denně pomohou počítačům při digitalizaci knih rozpoznat asi 100 milionů výrazů.

K dalšímu projektu, který by využíval ohromného potenciálu dělby práce, zvolil profesor Von Ahn právě překlady. Valná většina webu hovoří anglicky a naučit ji několika základním světovým jazykům je podle dosavadních zkušeností prakticky nemožné. Mohlo by se to změnit, pokud se překlad rozpustí mezi miliony uživatelů.

 Internet česky?

Funguje to jednoduše. Uživatel se přihlásí na stránce www.duolingo.com a vybere si, jaký jazyk se chce učit. Dostane tři věty na překlad, různé podle toho, zda je úplný začátečník, nebo pokročilý. Věty se snaží přeložit, a pokud nějaké slovíčko nezná, systém mu pomůže. Aby ale věta dávala smysl, je zapotřebí člověka; počítače mají s významovým překladem obrovské problémy. Přeložené věty proto systém nechá ohodnotit ostatní, pokročilejší uživatele a zároveň je porovnává s ostatními překlady. Finální verzí přeloženého textu je nakonec ta s nejvyšším hodnocením, tedy taková, o níž si nejvíce lidí myslí, že je správná. Prostá logika „víc hlav víc ví“ nakonec vítězí.

První výsledky jsou velmi slibné. Testovací překlad jednoho německy psaného odstavce systémem Duolingo v podstatě přesně odpovídal profesionálnímu (a dobře zaplacenému) překladu. Systém sice musí kombinovat překlady mnoha uživatelů od začátečníků po pokročilé, což je zdlouhavé, přesto dokáže pracovat velice efektivně a překvapivě rychle. Jeho tvůrci se to pokusili ilustrovat na příkladu internetové encyklopedie Wikipedia, která ve své základní anglické verzi obsahuje bezmála čtyři miliony článků. Španělsky je asi 20 procent tohoto obsahu. Přeložit profesionálně zbylých 80 procent by podle odhadů stálo asi 50 milionů amerických dolarů. Pomocí Duolinga by však náklady byly prakticky nulové, a pokud by kousky encyklopedie v rámci studia překládal milion uživatelů, mluvila by celá Wikipedia španělsky za 80 hodin.

Projekt zatím obsahuje jen několik základních jazyků: španělštinu, němčinu, později přijde i francouzština, italština a čínština, výchozím jazykem je samozřejmě angličtina. Pokud ale překlady půjdou tak rychle, možná je jen otázkou času, kdy bude internet mluvit také česky.

Nezapomeňte se včas zapojit.

Převzato z článku Štěpána Beneše v Respektu 2/2012.