Jak provést rozpoznávání řeči. Nejlepší ruský program pro rozpoznávání řeči

Služba SendPulse je marketingový nástroj pro vytvoření předplatitelské základny a přeměnu náhodných návštěvníků vašeho webu na pravidelné. SendPulse kombinuje nejdůležitější funkce pro přilákání a udržení zákazníků na jedné platformě:
● e-mailové zpravodaje,
● web-push,
● SMS zprávy,
● SMTP,
● korespondence ve Viberu,
● posílat zprávy na Facebook Messenger.

E-mailové zpravodaje

Pro zasílání e-mailových newsletterů můžete využít různé tarify, včetně bezplatných. Bezplatný plán má omezení: základ předplatného není vyšší než 2500.
První věcí, kterou je třeba při práci s e-mailovou poštovní službou začít, je vytvořit si vlastní adresář. Nastavte název a nahrajte seznam e-mailových adres.


SendPulse usnadňuje vytváření formuláře předplatného ve formě vyskakovacího okna, vložených formulářů, plovoucích a upevněných v určité části obrazovky. Pomocí předplatitelských formulářů získáte základnu předplatitelů od nuly nebo ji doplníte o nové adresy.
V nástroji pro tvorbu formulářů si můžete vytvořit přesně ten formulář předplatného, ​​který nejlépe vyhovuje vašim potřebám, a servisní tipy vám pomohou tento úkol zvládnout. Je také možné použít některý z dostupných hotových formulářů.


Při vytváření předplatitelských formulářů je povinné použít e-mail s firemní doménou. Přečtěte si jak.
Šablony zpráv pomůže krásně navrhnout vaše dopisy předplatitelům. Ve speciálním konstruktoru si můžete vytvořit vlastní šablonu dopisu.


Automatické zásilky. Správci obsahu aktivně využívají automatickou distribuci. Pomáhá automatizovat proces práce s klienty. Existuje několik způsobů, jak vytvořit automatický mailer:
Sekvenční řada písmen. Jedná se o nejjednodušší možnost, kdy je bez ohledu na podmínky napsáno několik dopisů, které budou odeslány příjemcům v určitém pořadí. Zde mohou být možnosti - série zpráv(jednoduchý řetězec zpráv), speciální datum(dopisy jsou načasovány na určitá data), spouštěcí písmeno- dopis je odeslán v závislosti na akcích předplatitele (otevření zprávy atd.).
Automatizace 360– zasílání e-mailů s určitými filtry a podmínkami a také při zohlednění konverzí.
Hotové řetězy podle šablony. Můžete vytvořit řadu písmen na základě dané šablony nebo šablonu upravit a upravit tak, aby vyhovovala vašim potřebám.
A/B testování vám pomůže experimentovat s různými možnostmi odesílání série e-mailů a určit nejlepší možnost pro otevření nebo přechody.

Odesílání oznámení push

Push-mailingy jsou předplatné v okně prohlížeče, jde o jakousi náhradu za rss-předplatné. Web-push technologie rychle vstoupily do našich životů a je již obtížné najít web, který nepoužívá push mailing k přilákání a udržení zákazníků. Žádost o skript pro , můžete odesílat e-maily ručně i vytvářet automatické vysílání vytvořením série e-mailů nebo shromažďováním dat z RSS. Druhá možnost znamená, že po objevení nového článku na vašem webu bude vašim odběratelům automaticky zasláno upozornění s krátkým oznámením.


Novinka od Odeslatpuls– nyní můžete své stránky zpeněžit pomocí oznámení push vložením reklam do nich. Po dosažení 10 USD se každé pondělí provádějí platby na jeden z platebních systémů – Visa / mastercard, PayPal nebo Webmoney.
Push zprávy ve službě jsou zcela zdarma. Platba se bere pouze za White Label - zásilky bez zmínky o službě SendPulse, ale pokud vám logo služby nevadí, můžete bez omezení používat push notifikace zdarma.

SMTP

Funkce SMTP chrání váš seznam adresátů před zařazením na černou listinu pomocí bílých IP adres. Technologie kryptografického podpisu DKIM a SPF používané v e-mailech SendPulse zvyšují důvěryhodnost e-mailů, které odesíláte, takže je méně pravděpodobné, že vaše e-maily skončí ve spamu nebo na černé listině.

Facebook messenger boti

Facebook chatbot je v beta testování. Můžete jej připojit ke své stránce a odesílat zprávy odběratelům.

Odesílání SMS

Prostřednictvím služby SendPulse je snadné posílat korespondenci do databáze telefonních čísel. Nejprve si musíte vytvořit adresář se seznamem telefonních čísel. Chcete-li to provést, vyberte sekci "Adresář", vytvořte nový adresář, nahrajte telefonní čísla. Nyní můžete pro tuto databázi vytvořit SMS mailing list. Cena za zasílání SMS se liší v závislosti na telekomunikačních operátorech příjemců a v průměru od 1,26 rublů do 2,55 rublů za 1 odeslanou SMS.

affiliate program

SendPulse implementuje affiliate program, ve kterém vám registrovaný uživatel pomocí vašeho odkazu, který zaplatil tarif, přinese 4 000 rublů. Pozvaný uživatel obdrží slevu 4000 rublů za prvních 5 měsíců používání služby.

Titulek telefonu pro neslyšící a nedoslýchavé

Proměňte svou obrazovku v úžasné záhlaví telefonu. Je to plně automatické, vaše konverzace nepíší žádní lidé, kteří slyší na stroji. Myslíte si, že prarodiče špatně slyší rodinu a přátele na telefonu? Zapněte jim Speechlogger a přestaňte křičet do telefonu. Jednoduše připojte zvukový výstup telefonu ke zvukovému vstupu počítače a spusťte Speechlogger. Je také užitečné při interakci tváří v tvář.

Automatický přepis

Nahráli jste rozhovor? Ušetřete čas tím, že jej přepíšete z automatické řeči Google na text, který do vašeho prohlížeče přinese Speechlogger. Přehrajte si nahraný rozhovor do mikrofonu (nebo linky) vašeho počítače a nechte přepis provést řečový záznamník. Speechlogger ukládá přepis textu spolu s datem, časem a vašimi komentáři. Umožňuje také upravovat text. Stejným způsobem lze přepisovat telefonní hovory. Můžete také nahrávat zvukové soubory přímo z počítače, jak je popsáno níže.

Automatický tlumočník a překladatel

Setkání se zahraničními hosty? Vezměte si s sebou notebook (nebo dva) se záznamníkem řeči a mikrofonem. Každá strana uvidí mluvená slova druhé strany přeložená do jejich vlastního jazyka v reálném čase. Je také užitečné telefonovat v cizím jazyce, abyste se ujistili, že druhé straně plně rozumíte. Připojte zvukový výstup telefonu k linkovému vstupu počítače a spusťte Speechlogger.

Učte se cizí jazyky a zdokonalte se ve výslovnosti

Speechlogger je skvělý nástroj pro výuku jazyků a lze jej použít mnoha způsoby. Můžete jej použít k učení slovní zásoby tím, že budete mluvit svým rodným jazykem a necháte software přeložit. Můžete se naučit a procvičovat správnou výslovnost tím, že budete mluvit cizím jazykem a uvidíte, zda Speechlogger rozumí nebo ne. Pokud je text přepsán černým písmem, znamená to, že jste jej vyslovili dobře.

Generování filmových titulků

Speechlogger může automaticky nahrávat filmy nebo jiné zvukové soubory. Poté vezměte soubor a automaticky jej přeložte do libovolného jazyka, abyste vytvořili mezinárodní titulky.

Místo psaní diktujte

Psaní dopisu? Dokumenty? seznamy? Souhrn? Cokoli potřebujete napsat, zkuste to místo toho nadiktovat Speechloggeru. Speechlogger jej automaticky uloží a umožní vám jej exportovat do dokumentu.

Zábavná hra :)

Dokážete napodobit čínský mluvčí? Francouzština? A co ruština? Zkuste napodobit cizí jazyk a uvidíte, co jste právě řekli pomocí Speechloggeru. Použijte simultánní překlad Speechloggeru, abyste pochopili, co jste právě řekli. Získejte úžasné výsledky – je to velká zábava!

Na Facebooku jsme byli požádáni:
„Abych mohl pracovat s textem, potřebuji přepsat 3 hodiny hlasového záznamu. Pokusil jsem se nahrát zvukový soubor s obrázkem na YouTube a použít jejich přepisovač textu, ale ukázalo se, že je to nějaký druh abrakadabra. Můžete mi prosím poradit, jak to technicky vyřešit? Děkuji!
Alexander Konovalov »

Alexandre, existuje jednoduché technické řešení – výsledek však bude záviset pouze na kvalitě vaší nahrávky. Dovolte mi vysvětlit, o jaké kvalitě mluvím.

V posledních letech ruské technologie rozpoznávání řeči hodně pokročily. Procento chyb v rozpoznávání se snížilo na takovou úroveň, že je snazší „namluvit“ jiný text ve speciální mobilní aplikaci nebo internetové službě, ručně opravovat jednotlivé „chyby“ – než psát celý text na klávesnici.

Aby ale umělá inteligence rozpoznávacího systému mohla dělat svou práci, musí uživatel udělat své. Totiž: mluvte do mikrofonu zřetelně a odměřeně, vyhýbejte se silným zvukům v pozadí, pokud je to možné, použijte stereo sluchátka nebo externí mikrofon připevněný ke knoflíkové dírce (pro kvalitu rozpoznávání je důležité, aby byl mikrofon vždy ve stejné vzdálenosti od rtů a vy sami mluvíte stejnou hlasitostí). Samozřejmě čím vyšší třída audio zařízení, tím lépe.

Tyto podmínky je snadné dodržet, pokud místo přímého přístupu k internetové službě rozpoznávání řeči používáte jako zprostředkující zařízení hlasový záznamník. Mimochodem, taková "osobní sekretářka" je zvláště nezbytná, když nemáte přístup k online. Přirozeně je lepší použít alespoň levný profesionální diktafon než nahrávací zařízení zabudované v levném mp3 přehrávači nebo chytrém telefonu. To dá mnohem větší šanci „nakrmit“ přijaté záznamy do služby rozpoznávání řeči.

Je to obtížné, ale je možné přesvědčit účastníka rozhovoru, aby dodržoval tato pravidla (ještě jedna rada: pokud nemáte v sadě externí mikrofon na kolíčku na prádlo, mějte záznamník alespoň vedle účastníka rozhovoru a ne s vámi).

Ale „nastínit“ konferenci nebo seminář na požadované úrovni v automatickém režimu je dle mého názoru prakticky nereálné (přeci jen nebudete mít pod kontrolou projev řečníků a reakce publika). I když docela zajímavá možnost: převést profesionálně nahrané zvukové přednášky a zvukové knihy na text (pokud na ně nebyla překryta hudba na pozadí a zvuky).

Doufejme, že kvalita vaší nahrávky z diktafonu je dostatečně vysoká, abyste ji dokázali rozluštit automatický režim.

Pokud ne, můžete jej dešifrovat v téměř jakékoli kvalitě záznamu poloautomatický režim.

V řadě situací vám navíc největší úsporu času a úsilí přinese paradoxně dekódování manuální režim. Přesněji verze, kterou sám používám už tucet let. 🙂

Takže v pořádku.

1. Automatické rozpoznávání řeči

Mnozí radí přepis hlasových nahrávek na YouTube. Ale tato metoda nutí uživatele trávit čas stahováním zvukového souboru a obrázku na pozadí a následným čištěním výsledného textu od časových razítek. Mezitím se tento čas snadno ušetří. 🙂

Zvukové nahrávky můžete rozpoznat přímo z vašeho počítače pomocí možností jedné z internetových služeb poháněných rozpoznávacím jádrem Google (doporučuji Speechpad.ru nebo Speechlogger.com). Vše, co musíte udělat, je udělat malý trik: místo toho, aby váš hlas hrál z mikrofonu, přesměrujte audio stream přehrávaný vaším počítačovým přehrávačem do služby.

Tento trik se nazývá softwarový stereo mix (obvykle se používá pro nahrávání hudby na počítači nebo její vysílání z počítače na internet).

Stereo mixážní pult byl součástí Windows XP – ale byl odstraněn vývojáři z pozdějších verzí tohoto operačního systému (říkají, aby chránili autorská práva: aby hráči nekradli hudbu z her atd.). Není však neobvyklé, že stereo mix obsahuje ovladače pro zvukové karty (například karty Realtec zabudované v základní desce). Pokud nemůžete stereo mixážní pult na svém PC najít pomocí snímků obrazovky níže, zkuste přeinstalovat ovladače zvuku z disku CD dodaného se základní deskou nebo z webu výrobce základní desky.

Pokud to nepomůže, nainstalujte do počítače alternativní program. Například - bezplatné virtuální zvukové zařízení VB-CABLE : majitel výše zmíněné služby Speechpad.ru jej doporučuje používat.

První krok musíte vypnout mikrofon pro použití v režimu nahrávání a místo toho povolit stereo mix (nebo virtuální VB-CABLE).

Chcete-li to provést, klikněte na ikonu reproduktoru v pravém dolním rohu (poblíž hodin) - nebo vyberte sekci "Zvuk" v "Ovládacím panelu". Na kartě „Záznam“ v okně, které se otevře, klikněte pravým tlačítkem myši a zaškrtněte políčka vedle položek „Zobrazit odpojená zařízení“ a „Zobrazit odpojená zařízení“. Klikněte pravým tlačítkem myši na ikonu mikrofonu a vyberte „Ztlumit“ (obecně vypněte všechna zařízení označená zelenou ikonou).

Klepněte pravým tlačítkem myši na ikonu stereo mixu a vyberte "Povolit". Na ikoně se objeví zelená ikona označující, že stereo mix se stal výchozím zařízením.

Pokud se rozhodnete použít VB-CABLE, pak jej povolte stejným způsobem v záložce „Záznam“.

A také - na kartě "Přehrávání".

Druhý krok. Zapněte nahrávání zvuku v libovolném přehrávači (pokud potřebujete dešifrovat zvukovou stopu videa, můžete spustit i přehrávač videa). Zároveň v prohlížeči Chrome načtěte službu Speechpad.ru a klikněte v ní na tlačítko „Povolit nahrávání“. Pokud je nahrávka dostatečně kvalitní, uvidíte, jak služba před vašima očima změní řeč na smysluplnou a blízkou původnímu textu. Pravda, bez interpunkčních znamének, která si budete muset zařídit sami.

Jako audio přehrávač doporučuji používat AIMP, kterému se budeme blíže věnovat ve třetí podkapitole. Nyní pouze poznamenám, že tento přehrávač umožňuje zpomalit nahrávání bez zkreslení řeči a také opravit některé další chyby. To může poněkud zlepšit rozpoznávání nepříliš kvalitních nahrávek. (Někdy se dokonce doporučuje špatné nahrávky předem zpracovat v profesionálních programech na úpravu zvuku. To je však podle mého názoru příliš pracný úkol pro většinu uživatelů, kteří budou psát text mnohem rychleji ručně. :))

2. Poloautomatické rozpoznávání řeči

Všechno je zde jednoduché. Pokud je nahrávka nekvalitní a rozpoznávání se „škrtí“ nebo služba produkuje příliš mnoho chyb, pomozte příčině sami „začleněním“ do řetězce: „audiopřehrávač – hlasatel – systém rozpoznávání“.

Vaším úkolem je poslouchat nahranou řeč ve sluchátkách a současně ji přes mikrofon diktovat službě rozpoznávání internetu. (Samozřejmě není nutné v seznamu nahrávacích zařízení přepínat z mikrofonu na stereo mix nebo virtuální kabel, jako v předchozí části). A jako alternativu k výše zmíněným internetovým službám můžete použít aplikace pro chytré telefony, jako je bezplatná Yandex.Dictation nebo funkce diktování na iPhonu s iOS 8 a vyšším.

Podotýkám, že v poloautomatickém režimu máte možnost okamžitě diktovat interpunkční znaménka, která služby zatím neumí umístit do automatického režimu.

Pokud se vám podaří diktovat synchronně s přehráváním nahrávky na přehrávači, zabere předběžný přepis skoro tolik času jako samotná nahrávka (nepočítáme-li následný čas strávený opravou pravopisných a gramatických chyb). Ale i práce podle schématu: „poslouchat frázi – diktovat – poslouchat frázi – diktovat“ vám může ve srovnání s tradičním psaním ušetřit čas.

Jako audio přehrávač doporučuji použít stejný AIMP. Nejprve jej můžete použít ke zpomalení přehrávání na rychlost, která vám vyhovuje při synchronním diktování. Za druhé, tento přehrávač může vrátit nahrávku na daný počet sekund: to je někdy nutné, aby lépe slyšel nesrozumitelnou frázi.

3. Ruční přepis hlasového záznamníku

Že vás poloautomatické diktování příliš rychle omrzí, můžete v praxi zjistit. Nebo děláte příliš mnoho chyb se službou. Nebo je díky vašim schopnostem rychlého psaní mnohem snazší vytvořit hotový opravený text na klávesnici než pomocí diktátu. Nebo váš hlasový záznamník, stereofonní mikrofon, zvuková karta neposkytují pro službu přijatelnou kvalitu zvuku. Nebo možná jen nemáte možnost diktovat nahlas ve své práci nebo domácí kanceláři.

Ve všech těchto případech vám pomůže moje proprietární metoda ručního dekódování (poslechněte si nahrávku v AIMP - napište do Wordu). S ním můžete poznámku přeměnit na text rychleji, než to dokáže mnoho profesionálních novinářů, jejichž rychlost psaní je podobná té vaší! Zároveň vydáte mnohem méně energie a nervů než oni. 🙂

Co je hlavním důvodem plýtvání energií a časem při přepisu audionahrávek tradičním způsobem? Kvůli tomu, že uživatel dělá spoustu zbytečných pohybů.

Uživatel neustále natahuje ruku k diktafonu a poté ke klávesnici počítače. Zastavil jsem přehrávání - napsal jsem v textovém editoru poslouchanou pasáž - znovu jsem zapnul přehrávání - přetočil jsem zpět nečitelnou nahrávku - atd. atd.

Použití běžného softwarového přehrávače na počítači tento proces trochu zjednodušuje: uživatel musí neustále minimalizovat/rozšiřovat Word, zastavovat/spouštět přehrávač a dokonce procházet tam a zpět pomocí posuvníku přehrávače, aby našel nečitelný fragment, a pak se vrátit na poslední poslouchané místo v nahrávce.

Aby se snížily tyto a další časové ztráty, specializované IT společnosti vyvíjejí softwarové a hardwarové přepisovače. To jsou dost drahá řešení pro profesionály – stejné novináře, soudní stenografy, vyšetřovatele atd. Ale ve skutečnosti jsou pro naše účely vyžadovány pouze dvě funkce:

  • schopnost zpomalit přehrávání hlasového záznamu, aniž by došlo k jeho zkreslení a snížení tónu (mnoho přehrávačů umožňuje zpomalit rychlost přehrávání - ale bohužel se zároveň lidský hlas promění v monstrózní robotický hlas, který je obtížné slyšet po dlouhou dobu);
  • možnost zastavit nahrávání nebo jej vrátit zpět na určený počet sekund a vrátit jej zpět bez zastavení psaní a bez minimalizace okna textového editoru.

Svého času jsem otestoval desítky audio programů – a našel jsem pouze dvě cenově dostupné placené aplikace, které tyto požadavky splňují. Mám jeden z nich. Hledal jsem trochu víc pro své milé čtenáře 🙂 - a našel jsem skvělé bezplatné řešení - přehrávač AIMP, který stále používám.

„Po zadání nastavení AIMP najděte sekci Global Keys a překonfigurujte Stop/Start na klávesu Escape (Esc). Věřte mi, že je to nejpohodlnější, protože na to nemusíte myslet a prst vám náhodou nespadne na jiné klávesy. Položky „Posunout trochu dozadu“ a „Trochu dopředu“ nastavte na klávesy Ctrl + zpět/vpřed (na klávesnici máte čtyři šipky - vyberte dvě z nich). Tato funkce je potřebná k opětovnému poslechu posledního fragmentu nebo k přeskočení trochu dopředu.

Poté vyvoláním EQ můžete snížit hodnoty Velocity a Tempo - a zvýšit hodnotu Pitch. V tomto případě si všimnete, že se rychlost přehrávání zpomalí, ale výška hlasu (pokud dobře zvolíte hodnotu „Pitch“) se nezmění. Zvolte tyto dva parametry, abyste měli čas psát téměř současně, jen občas jej zastavte.

Když je vše nastaveno, psaní vám zabere méně času a vaše ruce se méně unaví. Zvukový záznam budete moci přepisovat klidně a pohodlně, prakticky bez zvednutí prstů od psaní na klávesnici.“

K tomu, co bylo řečeno, mohu jen dodat, že pokud nahrávka není příliš kvalitní, můžete zkusit její přehrávání vylepšit experimentováním s dalšími nastaveními ve Správci zvukových efektů AIMP.

A počet sekund, po které bude pro vás nejpohodlnější pohybovat se v záznamu zpět nebo vpřed pomocí horkých kláves - nastavte v části „Přehrávač“ okna „Nastavení“ (které lze vyvolat stisknutím horkých kláves "Ctrl + P").

Přeji vám, abyste ušetřili více času na rutinních úkolech - a plodně ho využili na hlavní věci! 🙂 A nezapomeňte zapnout mikrofon v seznamu nahrávacích zařízení, když budete mluvit na Skype! 😉

3 způsoby přepisu hlasového záznamu: rozpoznávání řeči, diktování, manuální režim

Aktualizováno: pondělí 31. července 2017

Co má polofantastická myšlenka mluvit s počítačem společného s profesionální fotografií? Téměř žádný, pokud nejste fanouškem myšlenky nekonečného rozvoje celého technického prostředí člověka. Představte si na okamžik, že dáváte svému fotoaparátu hlasové příkazy ke změně ohniskové vzdálenosti a kompenzaci expozice o půl kroku plus. Dálkové ovládání kamery již bylo implementováno, ale tam musíte tiše mačkat tlačítka a tady je fotik sluchu!

Stalo se tradicí uvádět jako příklad lidské hlasové komunikace s počítačem nějaký fantastický film, tedy alespoň "Vesmírná odysea 2001" režiséra Stanleyho Kubricka. Palubní počítač tam nejen vede smysluplný dialog s astronauty, ale umí číst ze rtů jako hluchý člověk. Jinými slovy, stroj se naučil bez chyb rozpoznávat lidskou řeč. Možná někomu přijde dálkové hlasové ovládání fotoaparátu nadbytečné, ale toto sousloví by si mnozí přáli „Vezmi nás, zlato“ a obrázek celé rodiny na pozadí palmy je připraven.

No, tady jsem vzdal hold tradici, trochu fantazírované. Ale abych řekl z duše, tento článek se psal těžko a vše začalo dárkem v podobě smartphonu s OS Android 4. Tento model HUAWEI U8815 má malý čtyřpalcový dotykový displej a obrazovkovou klávesnici. Psát na něm je poněkud neobvyklé, ale ukázalo se, že to není nijak zvlášť nutné. (obrázek01)

1. Rozpoznávání hlasu ve smartphonu s OS Android

Při zkoušení nové hračky jsem si ve vyhledávací liště všiml grafiky mikrofonu. Google a na klávesnici v Notes. Dříve mě nezajímalo, co tento symbol znamená. Měl jsem tam rozhovory Skype a psal písmena na klávesnici. To dělá většina uživatelů internetu. Ale jak mi později vysvětlili, ve vyhledávači Google bylo přidáno hlasové vyhledávání v ruštině a objevily se programy, které umožňují diktovat krátké zprávy při použití prohlížeče Chrome.

Řekl jsem frázi o třech slovech, program je identifikoval a ukázal je v buňce s modrým pozadím. Bylo se čemu divit, protože všechna slova byla napsána správně. Pokud kliknete na tuto buňku, fráze se zobrazí v textovém poli poznámkového bloku Android. Řekl tedy pár frází a poslal zprávu asistentovi prostřednictvím SMS.


2. Stručná historie programů pro rozpoznávání hlasu.

Nebylo pro mě objevem, že moderní výdobytky v oblasti hlasového ovládání umožňují dávat příkazy domácím spotřebičům, autu, robotu. Příkazový režim byl zaveden v předchozích verzích Windows, OS/2 a Mac OS. Viděl jsem programy pro mluvení, ale k čemu jsou? Možná je mou zvláštností, že je pro mě snazší mluvit než psát na klávesnici a na mobilu neumím psát vůbec nic. Kontakty musíte nahrát na notebook s běžnou klávesnicí a přenést přes USB kabel. Ale jen mluvit do mikrofonu a počítač sám napsal text bez chyb - to byl pro mě sen. Atmosféru beznaděje podpořily diskuze na fórech. Všude je napadla taková smutná myšlenka:

„Avšak v praxi až dosud programy pro skutečné rozpoznávání řeči (a dokonce ani v ruštině) prakticky neexistují a zjevně nebudou brzy vytvořeny. Navíc ani inverzní úloha rozpoznávání - syntéza řeči, která, jak se zdá, je mnohem jednodušší než rozpoznávání, není plně vyřešena. (ComputerPress №12, 2004)

„Dodnes neexistují žádné normální programy pro rozpoznávání řeči (nejen ruské), protože tento úkol je pro počítač docela obtížný. A nejhorší je, že nebyl realizován mechanismus rozpoznávání slov člověkem, takže při vytváření programů rozpoznávání není na čem stavět. (Další diskuze na fóru).

Recenze programů pro zadávání textu v anglickém jazyce přitom naznačovaly jasné úspěchy. Například, IBM ViaVoice 98 Executive Edition měli základní slovník 64 000 slov a možnost přidat stejný počet vlastních slov. Procento rozpoznávání slov bez trénování programu bylo asi 80 % a při následné práci s konkrétním uživatelem dosáhlo 95 %.

Z programů pro rozpoznávání ruského jazyka stojí za zmínku "Gorynych" - doplněk k anglickému Dragon Dictate 2.5. O hledání a poté o „bitvě s pěti Gorynychy“ povím ve druhé části recenze. Jako první jsem našel "Anglického draka".

3. Program pro rozpoznávání souvislé řeči "Dragon Naturally Speaking"

Moderní verze programu společnosti Odstín Ukázalo se, že jsem byl s mým starým přítelem z Minského institutu cizích jazyků. Přivezla si ho ze zahraniční cesty a koupila si ho v domnění, že by mohla být „sekretářkou počítače“. Něco ale nefungovalo a program zůstal na notebooku téměř zapomenutý. Kvůli nedostatku jakékoli srozumitelné zkušenosti jsem musel jít za přítelem sám. Celý tento dlouhý úvod je nezbytný pro správné pochopení závěrů, které jsem vyvodil.

Celé jméno mého prvního draka bylo: . Program je v angličtině a vše je v něm přehledné i bez manuálu. Prvním krokem je vytvoření profilu konkrétního uživatele pro určení vlastností zvuku slov v jeho podání. Což jsem udělal – důležitý je věk mluvčího, země, zvláštnosti výslovnosti. Moje volba je: věk 22-54 let, angličtina UK, standardní výslovnost. Následuje několik oken, kde nastavíte mikrofon. (obrázek 04)

Další fází seriózních programů rozpoznávání řeči je nácvik konkrétní výslovnosti konkrétní osoby. Vyzýváme vás, abyste si zvolili povahu textu: moje volba je stručný návod na diktování, ale můžete si „objednat“ i humorný příběh.

Podstata této fáze práce s programem je extrémně jednoduchá - text se zobrazuje v okně, nad ním je žlutá šipka. Při správné výslovnosti se ve frázích pohybuje šipka a ve spodní části je ukazatel průběhu tréninku. Angličtina konverzační byla docela zapomenuta, takže jsem se pohyboval s obtížemi. Omezený byl i čas – počítač přece nebyl můj a musel jsem trénink přerušit. Ale kamarádka řekla, že test udělala za méně než půl hodiny. (obrázek 05)

Odmítl jsem přizpůsobit program mé výslovnosti, šel jsem do hlavního okna a spustil vestavěný textový editor. Mluvil oddělená slova z některých textů, které našel v počítači. Ta slova, která řekl správně, program vytištěný, ta, která řekl špatně, nahradil něčím „anglickým“. Po jasném vyslovení příkazu „erase line“ v angličtině to program splnil. To znamená, že příkazy čtu správně a program je rozpoznává bez předchozího školení.

Pro mě ale bylo důležité, jak tento „drak“ píše rusky. Jak jste pochopili z předchozího popisu, při trénování programu můžete vybrat pouze anglický text, prostě tam není žádný ruský text. Je jasné, že trénovat rozpoznávání ruské řeči nepůjde. Na další fotografii můžete vidět, jakou frázi program napsal při vyslovení ruského slova „Ahoj“. (obrázek 06)

Výsledek komunikace s prvním drakem dopadl lehce komicky. Pokud si pozorně přečtete text na oficiálních stránkách, můžete vidět anglickou „specializaci“ tohoto softwarového produktu. Navíc při načítání čteme v okně programu „Angličtina“. Tak proč bylo tohle všechno nutné? Je jasné, že za to mohou fóry a fámy ...

Ale je tu i užitečná zkušenost. Můj přítel požádal, aby viděl stav jejího notebooku. Nějak pomalu začal pracovat. To není překvapivé - systémový oddíl měl pouze 5% volného místa. Při mazání nepotřebných programů jsem viděl, že oficiální verze zabrala více než 2,3 GB. Toto číslo budeme potřebovat později. (image.07)



Rozpoznání ruské řeči, jak se ukázalo, nebyl triviální úkol. V Minsku se mi podařilo najít „Gorynycha“ od kamaráda. Disk hledal dlouho ve svých starých sutinách a podle něj jde o oficiální publikaci. Program se okamžitě nainstaloval a zjistil jsem, že jeho slovník obsahuje 5000 ruských slov plus 100 příkazů a 600 anglických slov plus 31 příkazů.

Nejprve je potřeba nastavit mikrofon, což jsem udělal. Pak jsem otevřel slovník a přidal slovo "zkouška" protože to nebylo ve slovníku programu. Snažil jsem se mluvit jasně, monotónně. Nakonec jsem otevřel program Gorynych Pro 3.0, zapnul režim diktování a získal tento seznam „slov, která znějí podobně“. (obrázek.09)

Výsledek mě zmátl, protože se jasně lišil k horšímu od práce smartphonu s Androidem, a rozhodl jsem se vyzkoušet jiné programy od „ Internetový obchod Google Chrome". A jednání s „gorynych hady“ odložil na později. Myslel jsem tohle odložení akce v původním ruském duchu

5. Hlasové schopnosti Google

Pro práci s hlasem na běžném počítači s OS Windows si budete muset nainstalovat prohlížeč Google Chrome. Pokud v něm pracujete na internetu, tak vpravo dole můžete kliknout na odkaz na obchod se softwarem. Tam jsem zdarma našel dva programy a dvě rozšíření pro hlasové zadávání textu. Programy jsou tzv "Hlasový zápisník" a "Voysnot - hlas na text". Po instalaci je najdete na záložce "aplikace" váš prohlížeč "chrom". (obr. 10)

Rozšíření se nazývají "Klíčové slovo Google Voice Search (Beta) 0.1.0.5" a "Text hlasového vstupu - Speechpad.ru 5.4". Po instalaci je lze na kartě vypnout nebo smazat "rozšíření".(obr. 11)

Hlasová poznámka. Na kartě aplikace v prohlížeči Chrome poklepejte na ikonu programu. Otevře se dialogové okno, jak je znázorněno na obrázku níže. Kliknutím na ikonu mikrofonu namluvíte do mikrofonu krátké fráze. Program odešle vaše slova na server pro rozpoznávání řeči a zadá text do okna. Všechna slova a fráze zobrazené na obrázku byly napsány na první pokus. Je zřejmé, že tato metoda funguje pouze s aktivním připojením k internetu. (obr. 12)

Hlasový zápisník. Pokud spustíte program na kartě aplikací, otevře se nová karta internetové stránky Speechpad.ru. K dispozici je podrobný návod, jak tuto službu používat a kompaktní formulář. To druhé je znázorněno na obrázku níže. (obr. 13)

Hlasový vstup text umožňuje vyplňovat textová pole internetových stránek hlasem. Například jsem šel na svou stránku Google+. V poli pro zadání nové zprávy klikněte pravým tlačítkem a vyberte "SpeechPad". Růžově zbarvené vstupní pole říká, že můžete diktovat svůj text. (obr. 14)

Hlasové vyhledávání Google umožňuje vyhledávat hlasem. Když toto rozšíření nainstalujete a aktivujete, ve vyhledávací liště se zobrazí symbol mikrofonu. Když jej stisknete, objeví se symbol ve velkém červeném kruhu. Stačí říct hledaný výraz a objeví se ve výsledcích vyhledávání. (obr. 15)

Důležitá poznámka: Aby mikrofon fungoval s rozšířeními Chrome, musíte povolit přístup k mikrofonu v nastavení prohlížeče. Ve výchozím nastavení je z bezpečnostních důvodů zakázána. Vstupte dovnitř Nastavení→Osobní údaje→Nastavení obsahu. (Pro přístup ke všem nastavením na konci seznamu klikněte na Zobrazit pokročilá nastavení). Otevře se dialogové okno Nastavení obsahu stránky. Vyberte položku v seznamu Multimédia→mikrofon.

6. Výsledky práce s ruskými programy pro rozpoznávání řeči

Malá zkušenost s používáním programů pro zadávání textu hlasem ukázala vynikající implementaci této funkce na serverech internetové společnosti Google. Bez předchozího školení jsou slova rozpoznána správně. To znamená, že problém rozpoznávání ruské řeči byl vyřešen.

Nyní můžeme říci, že výsledek voj Google bude novým kritériem pro hodnocení produktů jiných výrobců. Chtěl bych, aby systém rozpoznávání fungoval offline bez kontaktování serverů společnosti - je to pohodlnější a rychlejší. Kdy však bude uvolněn nezávislý program pro práci s nepřetržitým proudem ruské řeči, není známo. Stojí však za to předpokládat, že s možností trénovat toto "stvoření" bude skutečný průlom.

Programy ruských vývojářů "Gorynych", "Diktograf" a "Boj" Podrobně se budu věnovat v druhé části této recenze. Tento článek byl napsán velmi pomalu z toho důvodu, že hledání originálních disků je nyní obtížné. V tuto chvíli již mám všechny verze ruského softwaru pro rozpoznávání hlasu a textu, kromě Combat 2.52. Nikdo z mých přátel ani kolegů tento program nemá a já sám mám na fórech jen pár pochvalných recenzí. Pravda, byla tam taková zvláštní možnost - stáhnout si "Combat" přes SMS, ale to se mi nelíbí. (obrázek 16)


Krátký videoklip vám ukáže, jak funguje rozpoznávání řeči ve smartphonu s OS Android. Funkce hlasového vytáčení spočívá v nutnosti připojení k serverům Google. Internet by vám tedy měl fungovat

) na skutečném příkladu ovládání domácích spotřebičů Hello World.
Proč domácí spotřebiče? Ano, protože díky takovému příkladu to člověk dokáže ocenit rychlost a přesnost, čehož lze dosáhnout použitím zcela místní rozpoznávání řeči bez typových serverů Google ASR nebo Yandex SpeechKit.
K článku přikládám i všechny zdrojové kódy programu a samotné sestavení pro Android.

Proč najednou?

Když jsem na to nedávno narazil, zeptal jsem se autora, proč chce pro svůj program používat rozpoznávání řeči na straně serveru (podle mého názoru to bylo nadbytečné a vedlo to k určitým problémům). Na což jsem dostal protiotázku, zda mohu blíže popsat použití alternativních metod pro projekty, kde není potřeba nic rozpoznávat a slovník se skládá z konečné množiny slov. Navíc s ukázkou praktické aplikace...

Proč potřebujeme něco jiného než Yandex a Google?

Jako onu velmi „praktickou aplikaci“ jsem si vybral téma hlasové ovládání chytré domácnosti.
Proč takový příklad? Protože na něm můžete vidět těch pár výhod zcela lokálního rozpoznávání řeči oproti rozpoznávání pomocí cloudových řešení. A to:
  • Rychlost- nejsme závislí na serverech, a proto nezávisíme na jejich dostupnosti, šířce pásma atd. faktory
  • Přesnost- náš engine pracuje pouze se slovníkem, o který má naše aplikace zájem, čímž se zvyšuje kvalita rozpoznávání
  • Cena- nemusíme platit za každý požadavek na server
  • Hlasová aktivace- jako další bonus k prvním bodům - můžeme neustále "poslouchat vzduch", aniž bychom plýtvali provozem a bez načítání serveru

Poznámka

Okamžitě učiním výhradu, že tyto výhody lze považovat za výhody pouze pro určitou třídu projektů, Kde jsme víme jistě, se kterým slovníkem a jakou gramatikou bude uživatel pracovat. Tedy když nepotřebujeme rozpoznat libovolný text (například SMS zprávu, nebo vyhledávací dotaz). Jinak je rozpoznávání cloudu nepostradatelné.

Android tedy dokáže rozpoznat řeč i bez internetu!
Ano, ano... Pouze na JellyBean. A to jen z půl metru, víc ne. A toto rozpoznání je stejný diktát, jen s použitím mnohem menšího modelu. Nemůžeme to tedy spravovat a konfigurovat. A co nám vrátí příště, se neví. I když pro SMS-ok tak akorát!

Co děláme?

Implementujeme hlasové dálkové ovládání pro domácí spotřebiče, které bude fungovat přesně a rychle, z několika metrů a dokonce i na levné brzdové harampádí na velmi levné Android smartphony, tablety a hodinky.
Logika bude jednoduchá, ale velmi praktická. Aktivujeme mikrofon a vyslovíme jeden nebo více názvů zařízení. Aplikace je rozpozná a podle aktuálního stavu je zapne nebo vypne. Buď od nich přijme stát a vysloví ho příjemným ženským hlasem. Například aktuální teplota v místnosti.

Spousta praktických aplikací

Ráno, aniž by otevřeli oči, plácli obrazovkou smartphonu na noční stolek a zaveleli: "Dobré ráno!" - scénář se spustí, kávovar se zapne a zabzučí, zní příjemná hudba, závěsy se rozjedou.
Pověste si levný (2 tisíce, ne více) smartphone v každé místnosti na zdi. Po práci jdeme domů a zavelíme do prázdna „Chytrý domov! Světlo, TV! - Co bude dál, myslím, není nutné říkat.

Přepisy



Gramatika popisuje co co může uživatel říct. Aby Pocketsphinx věděla jak vysloví, je nutné ke každému slovu z gramatiky napsat, jak zní v odpovídajícím jazykovém modelu. To znamená transkripce každé slovo. To se nazývá slovník.

Přepisy jsou popsány pomocí speciální syntaxe. Například:
chytrý uu m n ay j dům d oo m

V zásadě nic složitého. Dvojhláska v transkripci označuje přízvuk. Dvojitá souhláska je měkká souhláska následovaná samohláskou. Všechny možné kombinace pro všechny zvuky ruského jazyka.

Je jasné, že nemůžeme předem popsat všechny přepisy v naší aplikaci, protože předem neznáme názvy, které uživatel svým zařízením dá. Proto budeme takové přepisy generovat za běhu podle některých pravidel ruské fonetiky. Chcete-li to provést, můžete implementovat takovou třídu PhonMapper, která může přijímat řetězec jako vstup a generovat pro něj správný přepis.

Hlasová aktivace

Jedná se o schopnost enginu pro rozpoznávání řeči neustále „poslouchat vzduch“, aby mohl reagovat na předem definovanou frázi (nebo fráze). Všechny ostatní zvuky a řeč budou vyřazeny. Není to totéž jako popsat gramatiku a jen zapnout mikrofon. Nebudu zde uvádět teorii tohoto úkolu a mechaniku jeho fungování. Dovolte mi jen říci, že nedávno programátoři pracující na Pocketsphinx implementovali takovou funkci a nyní je k dispozici ihned po vybalení v API.

Jedna věc rozhodně stojí za zmínku. Pro aktivační frázi musíte nejen specifikovat přepis, ale také vybrat vhodný prahová hodnota citlivosti. Příliš malá hodnota povede k mnoha falešným pozitivům (to je, když jste aktivační frázi neřekli, ale systém ji rozpozná). A příliš vysoká - na imunitu. Proto je toto nastavení obzvláště důležité. Přibližný rozsah hodnot - od 1e-1 do 1e-40 v závislosti na aktivační frázi.

Aktivace blízkosti

Tento úkol je specifický pro náš projekt a nesouvisí přímo s uznáním. Kód je vidět přímo v hlavní činnosti.
Uvědomuje si SensorEventListener a v okamžiku přiblížení (hodnota snímače je menší než maximální hodnota) spustí časovač a po určité prodlevě zkontroluje, zda je snímač stále blokován. To se provádí, aby se zabránilo falešným poplachům.
Když senzor není znovu zablokován, zastavíme rozpoznávání a získáme výsledek (viz popis níže).

Začínáme s rozpoznáváním

Pocketsphinx poskytuje pohodlné API pro konfiguraci a spuštění procesu rozpoznávání. Toto jsou třídy SpechRecognizer a Nastavení rozpoznávání řeči.
Takto vypadá konfigurace a spuštění rozpoznávání:

PhonMapper phonMapper = new PhonMapper(getAssets().open("dict/ru/hotwords")); Gramatická gramatika = new Grammar(names, phonMapper); gramatika.addWords(hotword); DataFiles dataFiles = new DataFiles(getPackageName(), "ru"); Soubor hmmDir = new File(dataFiles.getHmm()); Soubor dict = nový Soubor(dataFiles.getDict()); Soubor jsgf = new File(dataFiles.getJsgf()); copyAssets(hmmDir); saveFile(jsgf, gramatika.getJsgf()); saveFile(dikt, gramatika.getDict()); mRecognizer = SpeechRecognizerSetup.defaultSetup() .setAcousticModel(hmmDir) .setDictionary(dict) .setBoolean("-remove_noise", false) .setKeywordThreshold(1e-7f) .getRecognizer(); mRecognizer.addKeyphraseSearch(KWS_SEARCH, klíčové slovo); mRecognizer.addGrammarSearch(COMMAND_SEARCH, jsgf);

Zde nejprve zkopírujeme všechny potřebné soubory na disk (Pocketpshinx vyžaduje akustický model, gramatický a transkripční slovník na disku). Poté je nakonfigurován samotný rozpoznávací modul. Jsou zadány cesty k souborům modelu a slovníku a také některé parametry (práh citlivosti pro aktivační frázi). Dále je nakonfigurována cesta k souboru s gramatikou a také aktivační fráze.

Jak můžete vidět z tohoto kódu, jeden engine je nakonfigurován pro rozpoznávání gramatiky i aktivační fráze najednou. Proč se to dělá? Abychom mohli rychle přepínat mezi tím, co aktuálně potřebujeme rozpoznat. Takto vypadá spuštění procesu rozpoznávání aktivační fráze:

MRecognizer.startListening(KWS_SEARCH);
A takhle - rozpoznávání řeči podle dané gramatiky:

MRecognizer.startListening(COMMAND_SEARCH, 3000);
Druhý argument (nepovinný) je počet milisekund, po kterých se rozpoznávání automaticky ukončí, pokud nikdo nic neřekne.
Jak vidíte, k vyřešení obou problémů můžete použít pouze jeden motor.

Jak získat výsledek rozpoznání

Chcete-li získat výsledek rozpoznávání, musíte také zadat posluchače událostí, který implementuje rozhraní RecognitionListener.
Má několik metod, které volá pocketsphinx, když nastane jedna z událostí:
  • na začátku řeči- motor slyšel nějaký zvuk, možná je to řeč (nebo možná ne)
  • onEndOfSpeech- zvuk skončil
  • onPartialResult- existují mezivýsledky rozpoznávání. Pro aktivační frázi to znamená, že to fungovalo. Argument Hypotéza
  • onResult- konečný výsledek uznání. Tato metoda bude volána po zavolání metody stop v SpeechRecognizer. Argument Hypotéza obsahuje rozpoznávací data (řetězec a skóre)

Implementací metod onPartialResult a onResult tím či oním způsobem můžete změnit logiku rozpoznávání a získat konečný výsledek. Pro naši aplikaci se to dělá takto:

@Override public void onEndOfSpeech() ( Log.d(TAG, "onEndOfSpeech"); if (mRecognizer.getSearchName().equals(COMMAND_SEARCH)) ( mRecognizer.stop(); ) ) @Override public void onPartialResult(Hypothesis hypothesis) ( if (hypothesis == null) return; String text = hypothesis.getHypstr(); if (KWS_SEARCH.equals(mRecognizer.getSearchName())) ( startRecognition(); ) else ( Log.d(TAG, text); ) ) @Override public void onResult(Hypothesis hypothesis) ( mMicView.setBackgroundResource(R.drawable.background_big_mic); mHandler.removeCallbacks(mStopRecognitionCallback); Text řetězce = hypotéza != null ?(TAG) hypothesis.getHypnustrll() , "onResult " + text); if (COMMAND_SEARCH.equals(mRecognizer.getSearchName())) ( if (text != null) ( Toast.makeText(this, text, Toast.LENGTH_SHORT).show(); process(text ); ) mRecognizer.startListening(KWS_SEARCH); ) )

Když obdržíme událost onEndOfSpeech a zároveň rozpoznáme příkaz, který se má provést, musíme zastavit rozpoznávání, načež se okamžitě zavolá onResult.
V onResult musíte zkontrolovat, co bylo právě rozpoznáno. Pokud se jedná o příkaz, musíte jej spustit pro provedení a přepnout motor, aby rozpoznal aktivační frázi.
V onPartialResult nás zajímá pouze rozpoznání aktivační fráze. Pokud jej detekujeme, okamžitě zahájíme proces rozpoznání příkazu. Vypadá to takto:

Soukromé synchronizované void startRecognition() ( if (mRecognizer == null || COMMAND_SEARCH.equals(mRecognizer.getSearchName())) return; mRecognizer.cancel(); nový ToneGenerator(AudioManager.STREAM_MUSIC, ToneGenerator.MAXTonenereGenerator(ToneG). TONE_CDMA_PIP, 200); post(400, nové Runnable() ( @Override public void run() ( mMicView.setBackgroundResource(R.drawable.background_big_mic_green); mRecognizer.startListening(COMMAND_SEARCH, 3000); Log. příkazy"); post(4000, mStopRecognitionCallback); ) )); )
Zde nejprve zahrajeme malý signál, aby uživatel věděl, že jsme ho slyšeli a jsme připraveni na jeho příkaz. Během této doby musí být mikrofon vypnutý. Rozpoznávání tedy spustíme po malém timeoutu (o něco delším, než je doba trvání signálu, abychom neslyšeli jeho ozvěnu). Spustí také vlákno, které vynutí zastavení rozpoznávání, pokud uživatel mluví příliš dlouho. V tomto případě jsou to 3 sekundy.

Jak převést rozpoznaný řetězec na příkazy

Vše je již specifické pro konkrétní aplikaci. V případě nahého příkladu jednoduše vytáhneme z řádku názvy zařízení, vyhledáme požadované zařízení a buď změníme jeho stav pomocí HTTP požadavku na ovladač chytré domácnosti, nebo nahlásíme jeho aktuální stav (jako např. termostat). Tuto logiku lze vidět ve třídě Controller.

Jak syntetizovat řeč

Syntéza řeči je inverzní operace rozpoznávání. Zde je naopak potřeba převést řádek textu na řeč, aby jej uživatel slyšel.
V případě termostatu musíme nechat naše zařízení Android říct aktuální teplotu. Pomocí API Text na řeč je to docela jednoduché (díky Googlu za krásné ženské TTS pro ruský jazyk):

Private void speak(String text) ( synchronizováno (mSpeechQueue) ( ​​​​​mRecognizer.stop(); mSpeechQueue.add(text); HashMap params = nová HashMap (2); params.put(TextToSpeech.Engine.KEY_PARAM_UTTERANCE_ID, UUID.randomUUID().toString()); params.put(TextToSpeech.Engine.KEY_PARAM_STREAM, String.valueOf(AudioManager.STREAM_MUSIC)); params.put(TextToSpeech.Engine.KEY_FEATURE_NETWORK_SYNTHESIS, "true"); mTextToSpeech.speak(text, TextToSpeech.QUEUE_ADD, parametry); ))

Asi řeknu, že je to banální, ale před procesem syntézy je nutné deaktivovat rozpoznávání. Na některých zařízeních (například všech Samsungech) je obecně nemožné poslouchat mikrofon a zároveň něco syntetizovat.
Konec syntézy řeči (tj. konec procesu mluvení textu syntetizérem) lze sledovat v posluchači:

Soukromé finále TextToSpeech.OnUtteranceCompletedListener mUtteranceCompletedListener = new TextToSpeech.OnUtteranceCompletedListener() ( @Override public void onUtteranceCompleted(String utteranceId) (synchronizováno (mSpeechQueue if) (Empech.startyue.) (Empech.startyucognelu.) KWS_SEARCH); ) ) ) );

V něm jednoduše zkontrolujeme, zda se ve frontě syntézy nenachází něco dalšího, a zapneme rozpoznávání aktivační fráze, pokud tam nic jiného není.

A to je všechno?

Ano! Jak vidíte, není těžké rychle a přesně rozpoznat řeč přímo na zařízení, díky přítomnosti tak úžasných projektů, jako je Pocketsphinx. Poskytuje velmi praktické API, které lze použít k řešení problémů souvisejících s rozpoznáváním hlasových příkazů.

V tomto příkladu jsme přišroubovali rozpoznávání na zcela správný úkol - hlasové ovládání zařízení chytré domácnosti. Díky místnímu rozpoznání jsme dosáhli velmi vysoké rychlosti a minimalizovali chyby.
Je jasné, že stejný kód lze použít pro další úkoly související s hlasem. Nemusí to být nutně chytrá domácnost. Přidat štítky