როგორ გავაკეთოთ მეტყველების ამოცნობა. საუკეთესო რუსული მეტყველების ამოცნობის პროგრამა

SendPulse სერვისი არის მარკეტინგული ინსტრუმენტი სააბონენტო ბაზის შესაქმნელად და თქვენი საიტის შემთხვევითი ვიზიტორების რეგულარულად გადაქცევისთვის. SendPulse აერთიანებს ყველაზე მნიშვნელოვან მახასიათებლებს ერთ პლატფორმაზე მომხმარებლების მოზიდვისა და შესანარჩუნებლად:
● ელექტრონული ფოსტის საინფორმაციო ბიულეტენი,
● ვებ ბიძგი,
● SMS გაგზავნა,
● SMTP,
● შეტყობინებები Viber-ში,
● გაგზავნეთ შეტყობინებები ფეისბუქ მესენჯერში.

ელ.ფოსტის საინფორმაციო ბიულეტენი

თქვენ შეგიძლიათ გამოიყენოთ სხვადასხვა ტარიფები ელექტრონული ფოსტის გაზეთების ჩასატარებლად, მათ შორის უფასო. უფასო გეგმას აქვს შეზღუდვები: სააბონენტო ბაზა არ არის 2500-ზე მეტი.
პირველი, რითაც უნდა დაიწყოთ ელექტრონული ფოსტის გაგზავნის სერვისთან მუშაობისას, არის საკუთარის შექმნა მისამართების წიგნი. დააყენეთ სათაური და ატვირთეთ ელ.ფოსტის მისამართების სია.


SendPulse აადვილებს შექმნას გამოწერის ფორმებიამომხტარი ფანჯრის სახით, ჩაშენებული ფორმები, მცურავი და ფიქსირდება ეკრანის გარკვეულ ნაწილში. სააბონენტო ფორმების დახმარებით თქვენ შეაგროვებთ აბონენტთა ბაზას ნულიდან ან შეავსებთ თქვენს ბაზას ახალი მისამართებით.
ფორმის შემქმნელში შეგიძლიათ შექმნათ ზუსტად სააბონენტო ფორმა, რომელიც საუკეთესოდ შეესაბამება თქვენს საჭიროებებს და სერვისის რჩევები დაგეხმარებათ გაუმკლავდეთ ამ ამოცანას. ასევე შესაძლებელია ერთ-ერთი ხელმისაწვდომი მზა ფორმის გამოყენება.


სააბონენტო ფორმების შექმნისას სავალდებულოა კორპორატიული დომენის მქონე ელექტრონული ფოსტის გამოყენება. წაიკითხეთ როგორ.
შეტყობინებების შაბლონებიხელს შეუწყობს თქვენი წერილების ლამაზად დიზაინს აბონენტებისთვის. თქვენ შეგიძლიათ შექმნათ თქვენი საკუთარი ასოების შაბლონი სპეციალურ კონსტრუქტორში.


ავტომატური გაგზავნა. კონტენტის მენეჯერები აქტიურად იყენებენ ავტომატურ განაწილებას. ეს ხელს უწყობს კლიენტებთან მუშაობის პროცესის ავტომატიზაციას. ავტო ფოსტის შექმნის რამდენიმე გზა არსებობს:
ასოების თანმიმდევრული სერია. ეს არის უმარტივესი ვარიანტი, როდესაც, მიუხედავად პირობებისა, იწერება რამდენიმე წერილი, რომლებიც გარკვეული თანმიმდევრობით გაეგზავნება მიმღებებს. აქ შეიძლება იყოს ვარიანტები - შეტყობინებების სერია(მარტივი შეტყობინებების ჯაჭვი), სპეციალური თარიღი(წერილები დათარიღებულია გარკვეულ თარიღებამდე), გამომწვევი ასო- წერილი იგზავნება აბონენტის ქმედებებიდან გამომდინარე (მესიჯის გახსნა და ა.შ.).
ავტომატიზაცია 360- გაგზავნა გარკვეული ფილტრებით და პირობებით, ასევე კონვერტაციების გათვალისწინებით.
დასრულებული ჯაჭვებიშაბლონით. თქვენ შეგიძლიათ შექმნათ ასოების სერია მოცემულ შაბლონზე დაყრდნობით, ან შეცვალოთ შაბლონი და დააკონფიგურიროთ იგი თქვენს საჭიროებებზე.
A/B ტესტირებადაგეხმარებით ექსპერიმენტებში ელ.ფოსტის სერიის გაგზავნის სხვადასხვა ვარიანტებით და განსაზღვროთ გახსნის ან გადასვლის საუკეთესო ვარიანტი.

Push შეტყობინებების გაგზავნა

Push-mailings არის გამოწერა ბრაუზერის ფანჯარაში, ეს არის ერთგვარი ჩანაცვლება rss-გამოწერებისთვის. Web-Push ტექნოლოგიები სწრაფად შემოვიდა ჩვენს ცხოვრებაში და უკვე ძნელია იპოვოთ საიტი, რომელიც არ გამოიყენებს push mailings-ს მომხმარებლების მოსაზიდად და შესანარჩუნებლად. მოითხოვეთ სკრიპტი , შეგიძლიათ გაგზავნოთ ელ.წერილი როგორც ხელით, ასევე შექმნათ ავტომატური მაუწყებლობა ელ.ფოსტის სერიის შექმნით ან RSS-დან მონაცემების შეგროვებით. მეორე ვარიანტი გულისხმობს, რომ თქვენს საიტზე ახალი სტატიის გამოჩენის შემდეგ, ამის შესახებ შეტყობინება ავტომატურად გაეგზავნება თქვენს აბონენტებს მოკლე განცხადებით.


სიახლე Send-ისგანპულსი– ახლა თქვენ შეგიძლიათ თქვენი საიტის მონეტიზაცია Push შეტყობინებებით მათში რეკლამის ჩასმით. $10-ის მიღწევის შემდეგ, ყოველ ორშაბათს გადახდა ხდება ერთ-ერთ გადახდის სისტემაში - Visa / Mastercard, PayPal ან Webmoney.
Push შეტყობინებები სერვისზე აბსოლუტურად უფასოა. გადახდა მიიღება მხოლოდ White Label-ისთვის - გაგზავნა SendPulse სერვისის მითითების გარეშე, მაგრამ თუ სერვისის ლოგო არ გაწუხებთ, მაშინ შეგიძლიათ უფასოდ გამოიყენოთ push-შეტყობინებები შეზღუდვების გარეშე.

SMTP

SMTP ფუნქცია იცავს თქვენს საფოსტო სიას შავ სიაში თეთრი IP მისამართების გამოყენებით. SendPulse მეილიებში გამოყენებული DKIM და SPF კრიპტოგრაფიული ხელმოწერის ტექნოლოგიები ზრდის თქვენს მიერ გაგზავნილი ელ.ფოსტის სანდოობას, რაც ამცირებს თქვენს წერილებს სპამში ან შავ სიაში.

ფეისბუქ მესენჯერ ბოტები

Facebook ჩეთბოტი ბეტა ტესტირების პროცესშია. შეგიძლიათ დააკავშიროთ იგი თქვენს გვერდზე და გაუგზავნოთ შეტყობინებები აბონენტებს.

SMS გაგზავნა

SendPulse სერვისის საშუალებით ადვილია ფოსტის გაგზავნა ტელეფონის ნომრების მონაცემთა ბაზაში. პირველ რიგში, თქვენ უნდა შექმნათ მისამართების წიგნი ტელეფონის ნომრების სიით. ამისათვის აირჩიეთ განყოფილება "მისამართების წიგნი", შექმენით ახალი მისამართების წიგნი, ატვირთეთ ტელეფონის ნომრები. ახლა თქვენ შეგიძლიათ შექმნათ SMS დაგზავნის სია ამ მონაცემთა ბაზისთვის. SMS გაგზავნის ფასი მერყეობს მიმღების ტელეკომის ოპერატორების მიხედვით და საშუალოდ 1,26 რუბლიდან 2,55 რუბლამდე 1 გაგზავნილ SMS-ზე.

პარტნიორული პროგრამა

SendPulse ახორციელებს შვილობილი პროგრამას, რომელშიც რეგისტრირებული მომხმარებელი, რომელიც იყენებს თქვენს ბმულს, რომელმაც გადაიხადა ტარიფი, მოგიტანთ 4000 რუბლს. მოწვეული მომხმარებელი იღებს ფასდაკლებას 4000 რუბლის ოდენობით სერვისით სარგებლობის პირველი 5 თვის განმავლობაში.

ტელეფონის წარწერა ყრუ და სმენადაქვეითებულთათვის

გადააქციეთ თქვენი ეკრანი ტელეფონის გასაოცარ სათაურად. ის სრულიად ავტომატურია, ადამიანთა სმენის მბეჭდავი არ აკრეფს თქვენს საუბრებს. ბებია-ბაბუა ძნელად უსმენთ ოჯახის წევრებსა და მეგობრებს ტელეფონით? ჩართეთ Speechlogger მათთვის და შეწყვიტეთ ყვირილი ტელეფონზე. უბრალოდ დაუკავშირეთ თქვენი ტელეფონის აუდიო გამომავალი თქვენი კომპიუტერის აუდიო შეყვანას და გაუშვით Speechlogger. ის ასევე სასარგებლოა პირისპირ ურთიერთობის დროს.

ავტომატური ტრანსკრიფცია

ჩაწერეთ ინტერვიუ? დაზოგეთ დრო მისი გადაწერით, Google-ის ავტომატური მეტყველებიდან ტექსტზე, რომელიც თქვენს ბრაუზერში არის Speechlogger-ის მიერ მოტანილი. დაუკარით ჩაწერილი ინტერვიუ თქვენი კომპიუტერის მიკროფონში (ან ხაზში) და მიეცით საშუალება, რომ ლაპარაკი განახორციელოს ტრანსკრიფცია. Speechlogger ინახავს ტექსტის ტრანსკრიფციას თარიღთან, დროსა და თქვენს კომენტარებთან ერთად. ის ასევე საშუალებას გაძლევთ შეცვალოთ ტექსტი. სატელეფონო საუბრების გადაწერა შესაძლებელია იმავე მეთოდით. თქვენ ასევე შეგიძლიათ ჩაწეროთ აუდიო ფაილები პირდაპირ თქვენი კომპიუტერიდან, როგორც ეს აღწერილია ქვემოთ.

ავტომატური თარჯიმანი და მთარგმნელი

უცხოელ სტუმრებთან შეხვედრა? თან იქონიეთ ლეპტოპი (ან ორი) ლოგოჯერით და მიკროფონით. თითოეული მხარე რეალურ დროში იხილავს სხვის სალაპარაკო სიტყვებს საკუთარ ენაზე თარგმნილს. ასევე სასარგებლოა სატელეფონო ზარის განხორციელება უცხო ენაზე, რათა დარწმუნდეთ, რომ სრულად გესმით მეორე მხარე. შეაერთეთ თქვენი ტელეფონის აუდიო გამომავალი კომპიუტერის ხაზთან და გაუშვით Speechlogger.

ისწავლეთ უცხო ენები და გააუმჯობესეთ თქვენი გამოთქმის უნარი

Speechlogger არის ენის შესწავლის შესანიშნავი ინსტრუმენტი და მისი გამოყენება შესაძლებელია მრავალი გზით. თქვენ შეგიძლიათ გამოიყენოთ იგი ლექსიკის შესასწავლად თქვენს მშობლიურ ენაზე საუბრისა და პროგრამული უზრუნველყოფის თარგმნის ნებაზე. თქვენ შეგიძლიათ ისწავლოთ და ივარჯიშოთ სწორი გამოთქმა უცხო ენაზე საუბრით და იმის დანახვით, ესმის თუ არა Speechlogger. თუ ტექსტი შავი შრიფტით არის გადაწერილი, ეს ნიშნავს, რომ კარგად წარმოთქვით.

ფილმის სუბტიტრების თაობა

Speechlogger-ს შეუძლია ავტომატურად ჩაწეროს ფილმები ან სხვა ხმოვანი ფაილები. შემდეგ აიღეთ ფაილი და ავტომატურად გადათარგმნეთ იგი ნებისმიერ ენაზე საერთაშორისო სუბტიტრების შესაქმნელად.

კარნახით აკრეფის ნაცვლად

Წერილის დაწერა? Დოკუმენტები? სიები? Შემაჯამებელი? რაც არ უნდა აკრიფოთ, სცადეთ მისი კარნახით Speechlogger-ს. Speechlogger ავტომატურად შეინახავს მას თქვენთვის და საშუალებას მოგცემთ გაიტანოთ იგი დოკუმენტში.

სახალისო თამაში :)

შეგიძლიათ მიბაძოთ ჩინურ ენას? ფრანგული? რაც შეეხება რუსულს? შეეცადეთ მიბაძოთ უცხო ენას და ნახეთ, რა თქვით Speechlogger-თან. გამოიყენეთ Speechlogger-ის ერთდროული თარგმანი იმის გასაგებად, რაც ახლა თქვით. მიიღეთ საოცარი შედეგები - ეს ძალიან სახალისოა!

ფეისბუქზე გვკითხეს:
„ტექსტთან მუშაობისთვის მჭირდება ხმის ჩაწერის 3 საათის ტრანსკრიფცია. ვცადე ავტვირთო აუდიო ფაილი სურათთან ერთად იუთუბზე და გამომეყენებინა მათი ტექსტის გადამწერი, მაგრამ გამოდის რაღაც აბრაკადაბრა. იქნებ მითხრათ როგორ მოვაგვარო ეს ტექნიკურად? Გმადლობთ!
ალექსანდრე კონოვალოვი »

ალექსანდრე, არსებობს მარტივი ტექნიკური გადაწყვეტა - მაგრამ შედეგი დამოკიდებული იქნება მხოლოდ თქვენი ჩაწერის ხარისხზე. ნება მომეცით აგიხსნათ რა ხარისხზეა საუბარი.

ბოლო წლებში რუსული მეტყველების ამოცნობის ტექნოლოგიები ძალიან განვითარდა. ამოცნობის შეცდომების პროცენტმა შემცირდა ისეთ დონემდე, რომ უფრო ადვილი გახდა სხვა ტექსტის „ლაპარაკი“ სპეციალურ მობილურ აპლიკაციაში ან ინტერნეტ სერვისში, ინდივიდუალური „შეცდომების“ ხელით გამოსწორება - ვიდრე მთელი ტექსტის კლავიატურაზე აკრეფა.

მაგრამ იმისათვის, რომ ამოცნობის სისტემის ხელოვნურმა ინტელექტმა შეძლოს თავისი სამუშაოს შესრულება, მომხმარებელმა უნდა გააკეთოს საკუთარი. კერძოდ: ისაუბრეთ მიკროფონში გარკვევით და გაზომვით, მოერიდეთ ძლიერ ფონურ ხმაურს, თუ შესაძლებელია, გამოიყენეთ სტერეო ყურსასმენი ან ღილაკების ხვრელზე დამაგრებული გარე მიკროფონი (ამოცნობის ხარისხისთვის მნიშვნელოვანია, რომ მიკროფონი ყოველთვის იმავე მანძილზე იყოს ტუჩებიდან. და თქვენ თვითონ საუბრობთ იმავე ხმაზე). ბუნებრივია, რაც უფრო მაღალია აუდიო მოწყობილობის კლასი, მით უკეთესი.

ამ პირობების დაცვა მარტივია, თუ მეტყველების ამოცნობის ინტერნეტ სერვისზე პირდაპირ წვდომის ნაცვლად, შუალედურ შუამავალ მოწყობილობად იყენებთ ხმის ჩამწერს. სხვათა შორის, ასეთი „პირადი მდივანი“ განსაკუთრებით შეუცვლელია, როცა ონლაინზე წვდომა არ გაქვს. ბუნებრივია, უმჯობესია გამოიყენოთ მინიმუმ იაფი პროფესიონალური ხმის ჩამწერი, ვიდრე ჩამწერი მოწყობილობა, რომელიც ჩაშენებულია იაფფასიან mp3 პლეერში ან სმარტფონში. ეს გაცილებით მეტ შანსს მისცემს მიღებული ჩანაწერების მეტყველების ამომცნობ სამსახურს „გამოკვება“.

ძნელია, მაგრამ შესაძლებელია დაარწმუნო თანამოსაუბრე, რომლითაც ინტერვიუ იღებ ამ წესების დაცვას (კიდევ ერთი რჩევა: თუ კომპლექტში არ გაქვთ გარე მიკროფონი ტანსაცმლის სამაგრზე, ჩამწერი მაინც შეინახეთ თანამოსაუბრის გვერდით. , და არა თქვენთან ერთად).

მაგრამ კონფერენციის ან სემინარის საჭირო დონეზე ავტომატურ რეჟიმში „გამოხაზვა“, ჩემი აზრით, პრაქტიკულად არარეალურია (ბოლოს და ბოლოს, თქვენ ვერ აკონტროლებთ მომხსენებელთა მეტყველებას და აუდიტორიის რეაქციას). მიუხედავად იმისა, რომ საკმაოდ საინტერესო ვარიანტია: პროფესიონალურად ჩაწერილი აუდიო ლექციებისა და აუდიო წიგნების ტექსტად გადაქცევა (თუ ფონური მუსიკა და ხმები მათზე არ იყო გადატანილი).

იმედი ვიქონიოთ, რომ თქვენი დიქტოფონის ჩანაწერის ხარისხი საკმარისად მაღალია, რომ შეძლოთ მისი გაშიფვრა ავტომატური რეჟიმი.

თუ არა, ჩაწერის თითქმის ნებისმიერი ხარისხით, შეგიძლიათ გაშიფვრა ნახევრად ავტომატური რეჟიმი.

გარდა ამისა, რიგ სიტუაციებში, დროისა და ძალისხმევის უდიდესი დანაზოგი მოგიტანთ, პარადოქსულად, დეკოდირებას მექანიკური რეჟიმი. უფრო ზუსტად, ვერსია, რომელსაც მე თვითონ ვიყენებ ათეული წელია. 🙂

ასე რომ, იმისათვის.

1. მეტყველების ავტომატური ამოცნობა

ბევრი ურჩევს ხმოვანი ჩანაწერების გადაწერას YouTube-ზე. მაგრამ ეს მეთოდი აიძულებს მომხმარებელს დახარჯოს დრო აუდიო ფაილის და ფონის სურათის ჩამოტვირთვაზე და შემდეგ მიღებული ტექსტის დროის ანაბეჭდებიდან გაწმენდაზე. იმავდროულად, ამ დროის დაზოგვა ადვილია. 🙂

თქვენ შეგიძლიათ ამოიცნოთ აუდიო ჩანაწერები პირდაპირ თქვენი კომპიუტერიდან, Google-ის ამოცნობის ძრავით აღჭურვილი ერთ-ერთი ინტერნეტ სერვისის შესაძლებლობების გამოყენებით (მე გირჩევთ Speechpad.ru ან Speechlogger.com). ყველაფერი რაც თქვენ უნდა გააკეთოთ არის პატარა ხრიკის გაკეთება: იმის ნაცვლად, რომ თქვენი ხმა მიკროფონიდან დაკვრის, გადამისამართეთ თქვენი კომპიუტერის პლეერის მიერ ნათამაშები აუდიო ნაკადი სერვისზე.

ამ ხრიკს ეწოდება პროგრამული სტერეო მიქსერი (ჩვეულებრივ გამოიყენება კომპიუტერზე მუსიკის ჩასაწერად ან კომპიუტერიდან ინტერნეტში გადასაცემად).

სტერეო მიქსერი იყო Windows XP-ის ნაწილი - მაგრამ დეველოპერებმა ამოიღეს ამ ოპერაციული სისტემის შემდგომი ვერსიებიდან (ისინი ამბობენ, საავტორო უფლებების დასაცავად: ისე, რომ მოთამაშეებმა არ მოიპარონ მუსიკა თამაშებიდან და ა.შ.). თუმცა, არც ისე იშვიათია სტერეო მიქსერის მოყვება აუდიო ბარათების დრაივერები (მაგალითად, დედაპლატაში ჩაშენებული Realtec ბარათები). თუ თქვენ ვერ პოულობთ სტერეო მიქსერს თქვენს კომპიუტერში ქვემოთ მოცემული სკრინშოტების გამოყენებით, სცადეთ ხელახლა დააინსტალიროთ აუდიო დრაივერი CD-დან, რომელიც მოჰყვა დედაპლატს, ან დედაპლატის მწარმოებლის ვებსაიტიდან.

თუ ეს არ დაგვეხმარება, დააინსტალირეთ ალტერნატიული პროგრამა თქვენს კომპიუტერში. მაგალითად - უფასო VB-CABLE ვირტუალური აუდიო მოწყობილობა: ზემოაღნიშნული Speechpad.ru სერვისის მფლობელი გირჩევთ მის გამოყენებას.

პირველი ნაბიჯითქვენ უნდა გამორთოთ მიკროფონი ჩაწერის რეჟიმში გამოსაყენებლად და ამის ნაცვლად ჩართოთ სტერეო მიქსერი (ან ვირტუალური VB-CABLE).

ამისათვის დააწკაპუნეთ დინამიკის ხატულაზე ქვედა მარჯვენა კუთხეში (საათთან ახლოს) - ან აირჩიეთ "ხმა" განყოფილება "პანელში". ფანჯრის "ჩანაწერი" ჩანართში, რომელიც იხსნება, დააწკაპუნეთ მაუსის მარჯვენა ღილაკით და მონიშნეთ ველები "გამორთული მოწყობილობების ჩვენება" და "გამორთული მოწყობილობების ჩვენება". დააწკაპუნეთ მაუსის მარჯვენა ღილაკით მიკროფონის ხატულაზე და აირჩიეთ „Mute“ (ზოგადად, გამორთეთ ყველა მოწყობილობა, რომელიც მონიშნულია მწვანე ხატით).

დააწკაპუნეთ მაუსის მარჯვენა ღილაკით სტერეო მიქსერის ხატულაზე და აირჩიეთ "ჩართვა". ხატულაზე გამოჩნდება მწვანე ხატი, რომელიც მიუთითებს, რომ სტერეო მიქსერი გახდა ნაგულისხმევი მოწყობილობა.

თუ გადაწყვეტთ VB-CABLE-ის გამოყენებას, მაშინ ჩართეთ იგი ანალოგიურად "ჩაწერის" ჩანართში.

და ასევე - "აღწარმოების" ჩანართში.

მეორე ნაბიჯი.ჩართეთ აუდიო ჩანაწერი ნებისმიერ პლეერში (თუ გჭირდებათ ვიდეოს აუდიო ჩანაწერის გაშიფვრა, ასევე შეგიძლიათ ჩართოთ ვიდეო პლეერი). ამავდროულად, ჩატვირთეთ Speechpad.ru სერვისი Chrome ბრაუზერში და დააჭირეთ მასში ღილაკს "ჩაწერის ჩართვა". თუ ჩანაწერი საკმარისად მაღალი ხარისხისაა, დაინახავთ, როგორ აქცევს სერვისი თქვენს თვალწინ მეტყველებას შინაარსობრივად და ორიგინალურ ტექსტთან ახლოს. მართალია, სასვენი ნიშნების გარეშე, რომლის მოწყობა თავად მოგიწევთ.

როგორც აუდიო პლეერი, გირჩევთ გამოიყენოთ AIMP, რომელიც უფრო დეტალურად იქნება განხილული მესამე ქვეთავში. ახლა მხოლოდ აღვნიშნავ, რომ ეს პლეერი საშუალებას გაძლევთ შეანელოთ ჩაწერა მეტყველების დამახინჯების გარეშე, ასევე გამოასწოროთ სხვა შეცდომები. ამან შეიძლება გარკვეულწილად გააუმჯობესოს არც თუ ისე მაღალი ხარისხის ჩანაწერების ამოცნობა. (ზოგჯერ რეკომენდებულია ცუდი ჩანაწერების წინასწარ დამუშავება ხმის რედაქტირების პროფესიონალურ პროგრამებში. თუმცა, ჩემი აზრით, ეს ძალიან შრომატევადი ამოცანაა მომხმარებლების უმეტესობისთვის, რომლებიც უფრო სწრაფად აკრეფენ ტექსტს ხელით. :))

2. ნახევრად ავტომატური მეტყველების ამოცნობა

აქ ყველაფერი მარტივია. თუ ჩანაწერი უხარისხოა და ამოცნობა „ახრჩობს“ ან სერვისი ძალიან ბევრ შეცდომას წარმოშობს, დაეხმარეთ მიზეზს ჯაჭვში „ჩასვით“: „აუდიო პლეერი - გამომცემელი - ამოცნობის სისტემა“.

თქვენი ამოცანაა მოუსმინოთ ჩაწერილ მეტყველებას ყურსასმენებში და ერთდროულად უკარნახოთ იგი მიკროფონის საშუალებით ინტერნეტის ამოცნობის სერვისს. (რა თქმა უნდა, არ გჭირდებათ მიკროფონიდან სტერეო მიქსერზე ან ვირტუალურ კაბელზე გადართვა ჩამწერი მოწყობილობების სიაში, როგორც წინა განყოფილებაში). და როგორც ზემოთ ნახსენები ინტერნეტ სერვისების ალტერნატივა, შეგიძლიათ გამოიყენოთ სმარტფონის აპლიკაციები, როგორიცაა უფასო Yandex.Dictation ან კარნახის ფუნქცია iPhone-ზე iOS 8 და უფრო მაღალი ვერსიით.

მე აღვნიშნავ, რომ ნახევრად ავტომატურ რეჟიმში თქვენ გაქვთ შესაძლებლობა დაუყოვნებლივ უკარნახოთ პუნქტუაციის ნიშნები, რომელთა მოთავსებაც სერვისებს ჯერ არ შეუძლიათ ავტომატურ რეჟიმში.

თუ თქვენ მოახერხებთ პლეერზე ჩანაწერის დაკვრის სინქრონულად კარნახს, წინასწარ ტრანსკრიფციას თითქმის იმდენი დრო დასჭირდება, რამდენიც თავად ჩანაწერს (არ ჩავთვლით შემდგომ დროს დახარჯულ ორთოგრაფიული და გრამატიკული შეცდომების გამოსწორებას). მაგრამ სქემის მიხედვით მუშაობაც კი: „მოისმინე ფრაზა - კარნახო - მოუსმინე ფრაზას - კარნახო“ შეუძლია დაზოგოს დრო ტრადიციულ აკრეფთან შედარებით.

როგორც აუდიო პლეერი, გირჩევთ გამოიყენოთ იგივე AIMP. უპირველეს ყოვლისა, შეგიძლიათ გამოიყენოთ ის, რათა შეანელოთ დაკვრა იმ სიჩქარემდე, რომელიც თქვენთვის კომფორტულია სინქრონული კარნახით. მეორეც, ამ მოთამაშეს შეუძლია დააბრუნოს ჩანაწერი წამში მოცემული რაოდენობით: ეს ზოგჯერ აუცილებელია იმისათვის, რომ უკეთ მოისმინოს გაუგებარი ფრაზა.

3. ხმის ჩამწერის ხელით ტრანსკრიფცია

პრაქტიკაში შეგიძლიათ გაიგოთ, რომ ძალიან სწრაფად დაიღალეთ ნახევრად ავტომატური კარნახით. ან ძალიან ბევრ შეცდომას უშვებთ სერვისთან დაკავშირებით. ან, თქვენი სიჩქარის აკრეფის უნარის წყალობით, ბევრად უფრო ადვილია კლავიატურაზე მზა შესწორებული ტექსტის შექმნა, ვიდრე კარნახის გამოყენება. ან თქვენი ხმის ჩამწერი, სტერეო ყურსასმენის მიკროფონი, აუდიო ბარათი არ იძლევა მომსახურებისთვის მისაღები ხმის ხარისხს. ან იქნებ უბრალოდ არ გაქვთ შესაძლებლობა, ხმამაღლა კარნახოთ თქვენს სამსახურში ან სახლის ოფისში.

ყველა ამ შემთხვევაში ჩემი საკუთრების ხელით დეკოდირების მეთოდი დაგეხმარებათ (მოუსმინეთ ჩანაწერს AIMP-ში - ჩაწერეთ Word-ში). მისი საშუალებით შეგიძლიათ შენიშვნა ტექსტად გადააქციოთ უფრო სწრაფად, ვიდრე ბევრ პროფესიონალ ჟურნალისტს შეუძლია, რომელთა აკრეფის სიჩქარეც თქვენსას ჰგავს! ამავდროულად, თქვენ დახარჯავთ ბევრად ნაკლებ ენერგიას და ნერვებს, ვიდრე ისინი. 🙂

რა არის ენერგიისა და დროის ფლანგვის ძირითადი მიზეზი აუდიოჩანაწერების ტრადიციული გზით ტრანსკრიფციის დროს? იმის გამო, რომ მომხმარებელი ბევრ არასაჭირო მოძრაობას აკეთებს.

მომხმარებელი მუდმივად უწვდის ხელს ხმის ჩამწერს, შემდეგ კომპიუტერის კლავიატურას. მე შევაჩერე დაკვრა - ტექსტის რედაქტორში ჩავწერე მოსმენილი პასაჟი - ისევ ჩავრთე დაკვრა - უკან ამოვატრიალე გაუგებარი ჩანაწერი - ა.შ. და ა.შ.

კომპიუტერზე ჩვეულებრივი პროგრამული პლეერის გამოყენება პროცესს ოდნავ ამარტივებს: მომხმარებელმა მუდმივად უნდა შეამციროს/გაფართოვდეს სიტყვა, შეაჩეროს/ჩართოს პლეერი და მოთამაშის სლაიდერითაც კი სრიალდეს წინ და უკან, რათა აღმოაჩინოს გაუგებარი ფრაგმენტი და შემდეგ დაბრუნდეს. ჩანაწერში ბოლო მოსმენილ ადგილას.

დროის ამ და სხვა დანაკარგების შესამცირებლად, სპეციალიზებული IT კომპანიები ავითარებენ პროგრამულ და აპარატურულ გადამწერებს. ეს საკმაოდ ძვირი გადაწყვეტილებებია პროფესიონალებისთვის - იგივე ჟურნალისტებისთვის, სასამართლოს სტენოგრაფებისთვის, გამომძიებლებისთვის და ა.შ. მაგრამ, ფაქტობრივად, ჩვენი მიზნებისთვის მხოლოდ ორი ფუნქციაა საჭირო:

  • ხმის ჩანაწერის დაკვრის შენელების უნარი მისი დამახინჯების და ტონის დაქვეითების გარეშე (ბევრი მოთამაშე საშუალებას გაძლევთ შეანელოთ დაკვრის სიჩქარე - მაგრამ, სამწუხაროდ, ამავდროულად, ადამიანის ხმა იქცევა ამაზრზენ რობოტულ ხმად, რომელიც არის რთული მოსმენა დიდი ხნის განმავლობაში);
  • უნარი შეწყვიტოს ჩაწერა ან დააბრუნოს იგი განსაზღვრული რაოდენობის წამით და დააბრუნოს იგი აკრეფის შეწყვეტის და ტექსტური რედაქტორის ფანჯრის მინიმიზაციის გარეშე.

მე გამოვტესტე ათობით აუდიო პროგრამა თავის დროზე - და ვიპოვე მხოლოდ ორი ხელმისაწვდომი ფასიანი აპლიკაცია, რომელიც აკმაყოფილებს ამ მოთხოვნებს. მიიღო ერთი მათგანი. ცოტა მეტი მოვძებნე ჩემს ძვირფას მკითხველს 🙂 - და ვიპოვე მშვენიერი უფასო გადაწყვეტა - AIMP პლეერი, რომელსაც დღემდე ვიყენებ.

„AIMP პარამეტრებში შესვლის შემდეგ იპოვეთ გლობალური კლავიშების განყოფილება და ხელახლა დააკონფიგურირეთ Stop/Start Escape (Esc) კლავიშზე. მერწმუნეთ, ეს ყველაზე მოსახერხებელია, რადგან თქვენ არ გჭირდებათ ამაზე ფიქრი და თითი შემთხვევით სხვა კლავიშებზე არ ჩამოვარდება. დააყენეთ ელემენტი "ცოტა უკან გადაადგილება" და "ცოტა წინ გადაადგილება" კლავიშებზე Ctrl + უკან/წინ, შესაბამისად (თქვენ გაქვთ კლავიატურაზე ოთხი ისრის ღილაკი - აირჩიეთ ორი). ეს ფუნქცია საჭიროა ბოლო ფრაგმენტის ხელახლა მოსასმენად ან ოდნავ წინ გადასასვლელად.

შემდეგ, EQ-ის გამოძახებით, შეგიძლიათ შეამციროთ სიჩქარის და ტემპის მნიშვნელობები - და გაზარდოთ Pitch მნიშვნელობა. ამ შემთხვევაში შეამჩნევთ, რომ დაკვრის სიჩქარე შენელდება, მაგრამ ხმის სიმაღლე (თუ კარგად აირჩევთ „Pitch“ მნიშვნელობას) არ შეიცვლება. აირჩიეთ ეს ორი პარამეტრი ისე, რომ გქონდეთ დრო, რომ აკრიფოთ თითქმის ერთდროულად, მხოლოდ დროდადრო შეაჩეროთ იგი.

როცა ყველაფერი დალაგებულია, აკრეფა ნაკლებ დროს წაგართმევთ და ხელები ნაკლებად დაიღლებათ. თქვენ შეძლებთ აუდიოჩანაწერის გადაწერას მშვიდად და კომფორტულად, პრაქტიკულად კლავიატურაზე აკრეფით თითების აწევის გარეშე“.

მე შემიძლია დავამატო მხოლოდ ის, რაც ითქვა, რომ თუ ჩანაწერი არ არის ძალიან მაღალი ხარისხის, შეგიძლიათ სცადოთ მისი დაკვრის გაუმჯობესება AIMP-ის ხმის ეფექტების მენეჯერის სხვა პარამეტრების ექსპერიმენტებით.

და წამების რაოდენობა, რომლისთვისაც თქვენთვის ყველაზე მოსახერხებელი იქნება ჩაწერის წინ ან უკან გადაადგილება ცხელი კლავიშების გამოყენებით - დააყენეთ "პარამეტრების" ფანჯრის "მოთამაშის" განყოფილებაში (რომლის გამოძახება შესაძლებელია ცხელი კლავიშების დაჭერით. "Ctrl + P").

გისურვებთ დაზოგოთ მეტი დრო რუტინულ დავალებებზე - და ნაყოფიერად გამოიყენოთ იგი მთავარი საქმეებისთვის! 🙂 და არ დაგავიწყდეთ მიკროფონის ჩართვა ჩამწერი მოწყობილობების სიაში, როდესაც აპირებთ სკაიპში საუბარს! 😉

ხმის ჩანაწერის გადაწერის 3 გზა: მეტყველების ამოცნობა, კარნახი, ხელით რეჟიმი

განახლებულია: ორშაბათი, 2017 წლის 31 ივლისი

რა კავშირშია კომპიუტერთან საუბრის ნახევრად ფანტასტიკური იდეა პროფესიონალურ ფოტოგრაფიასთან? თითქმის არცერთი, თუ არ ხართ ადამიანის მთელი ტექნიკური გარემოს გაუთავებელი განვითარების იდეის გულშემატკივარი. ერთი წუთით წარმოიდგინეთ, რომ თქვენ აძლევთ ხმოვან ბრძანებებს თქვენს კამერას, რომ შეცვალოს ფოკუსური მანძილი და გახადოს ექსპოზიციის კომპენსაცია ნახევარ საფეხურზე დამატებული. კამერის დისტანციური მართვა უკვე დანერგილია, მაგრამ იქ თქვენ უნდა დააჭიროთ ჩუმად ღილაკებს და აქ არის სმენის ფოტიკი!

ტრადიციად იქცა კომპიუტერთან ადამიანის ხმოვანი კომუნიკაციის მაგალითად ფანტასტიკური ფილმის მოყვანა, ყოველ შემთხვევაში, რეჟისორ სტენლი კუბრიკის "კოსმოსური ოდისეა 2001". იქ ბორტ კომპიუტერი არა მხოლოდ აწარმოებს მნიშვნელოვან დიალოგს ასტრონავტებთან, არამედ შეუძლია წაიკითხოს ტუჩები, როგორც ყრუ. სხვა სიტყვებით რომ ვთქვათ, მანქანამ ისწავლა ადამიანის მეტყველების ამოცნობა შეცდომების გარეშე. შესაძლოა, ვინმეს კამერის დისტანციური ხმოვანი კონტროლი ზედმეტი აღმოჩნდეს, მაგრამ ბევრს მოეწონება ეს ფრაზა "გაგვიყვანე პატარავ"და მთელი ოჯახის სურათი პალმის ხის ფონზე მზად არის.

აჰა, აქ ტრადიციას მივაგენი, ცოტა ფანტაზია. მაგრამ, გულის სიღრმიდან რომ ვისაუბრო, ამ სტატიის დაწერა რთული იყო და ყველაფერი დაიწყო საჩუქრით სმარტფონის სახით Android 4 OS-ით. ამ მოდელს HUAWEI U8815 აქვს პატარა ოთხი დიუმიანი სენსორული ეკრანი და ეკრანის კლავიატურა. გარკვეულწილად უჩვეულოა მასზე აკრეფა, მაგრამ აღმოჩნდა, რომ ეს არ არის განსაკუთრებით საჭირო. (სურათი 01)

1. ხმის ამოცნობა სმარტფონში Android OS-ზე

ახალი სათამაშოს ცდისას შევნიშნე მიკროფონის გრაფიკა საძიებო ზოლში. Googleდა კლავიატურაზე Notes-ში. ადრე არ მაინტერესებდა რას ნიშნავს ეს სიმბოლო. მე მქონდა საუბრები სკაიპიდა კლავიატურაზე ასოები აკრიფა. ეს არის ის, რასაც აკეთებს ინტერნეტის მომხმარებლების უმეტესობა. მაგრამ როგორც მოგვიანებით ამიხსნეს, საძიებო სისტემაში Googleდაემატა ხმოვანი ძებნა რუსულ ენაზე და გამოჩნდა პროგრამები, რომლებიც საშუალებას გაძლევთ კარნახოთ მოკლე შეტყობინებები ბრაუზერის გამოყენებისას Chrome.

სამი სიტყვისგან შემდგარი ფრაზა ვთქვი, პროგრამამ ამოიცნო ისინი და ცისფერი ფონის მქონე უჯრედში აჩვენა. იყო რაღაც გასაკვირი, რადგან ყველა სიტყვა სწორად იყო დაწერილი. თუ დააწკაპუნებთ ამ უჯრედზე, ფრაზა გამოჩნდება ანდროიდის რვეულის ტექსტურ ველში. ამიტომ მან თქვა რამდენიმე ფრაზა და ასისტენტს SMS-ით გაუგზავნა შეტყობინება.


2. ხმის ამომცნობი პროგრამების მოკლე ისტორია.

ჩემთვის აღმოჩენა არ იყო, რომ ხმის მართვის სფეროში თანამედროვე მიღწევები საშუალებას გაძლევთ ბრძანებები მისცეთ საყოფაცხოვრებო ტექნიკას, მანქანას, რობოტს. ბრძანების რეჟიმი დაინერგა Windows, OS/2 და Mac OS-ის წინა ვერსიებში. მე ვნახე სალაპარაკო პროგრამები, მაგრამ რა სარგებლობა მოაქვს მათ? ალბათ ჩემი თავისებურებაა, რომ ლაპარაკი უფრო ადვილია, ვიდრე კლავიატურაზე აკრეფა და მობილურზე საერთოდ ვერაფერს ვწერ. თქვენ უნდა ჩაიწეროთ კონტაქტები ლეპტოპზე ჩვეულებრივი კლავიატურით და გადაიტანოთ USB კაბელის საშუალებით. მაგრამ მხოლოდ მიკროფონში საუბარი და კომპიუტერი თავად აკრეფდა ტექსტს შეცდომების გარეშე - ეს ჩემთვის ოცნება იყო. უიმედობის ატმოსფეროს მხარი დაუჭირა ფორუმებზე დისკუსიებმა. ყველგან ასეთი სევდიანი აზრი ჰქონდათ:

”თუმცა, პრაქტიკაში, ამ დრომდე, რეალური მეტყველების ამოცნობის პროგრამები (და თუნდაც რუსულ ენაზე) პრაქტიკულად არ არსებობს და ისინი აშკარად არ შეიქმნება მალე. უფრო მეტიც, ამოცნობის საპირისპირო ამოცანაც კი - მეტყველების სინთეზი, რომელიც, როგორც ჩანს, ბევრად უფრო მარტივია, ვიდრე აღიარება, ბოლომდე არ არის გადაწყვეტილი. (ComputerPress №12, 2004)

”დღემდე არ არსებობს ნორმალური მეტყველების ამოცნობის პროგრამები (არა მხოლოდ რუსული), რადგან ამოცანა საკმაოდ რთულია კომპიუტერისთვის. და ყველაზე ცუდი ის არის, რომ ადამიანის მიერ სიტყვების ამოცნობის მექანიზმი არ არის რეალიზებული, ამიტომ ამოცნობის პროგრამების შექმნისას არაფერია დასაყრდენი. (კიდევ ერთი დისკუსია ფორუმზე).

ამავდროულად, ინგლისურენოვანი ტექსტის შეყვანის პროგრამების მიმოხილვამ აშკარა წარმატებები მიუთითა. Მაგალითად, IBM ViaVoice 98 Executive Editionჰქონდათ 64000 სიტყვისგან შემდგარი საბაზისო ლექსიკონი და ამდენივე საკუთარი სიტყვების დამატების შესაძლებლობა. პროგრამის ტრენინგის გარეშე სიტყვების ამოცნობის პროცენტი იყო დაახლოებით 80%, ხოლო კონკრეტულ მომხმარებელთან შემდგომი მუშაობით 95% -ს მიაღწია.

რუსული ენის ამოცნობის პროგრამებიდან აღსანიშნავია "გორინიჩი" - ინგლისურენოვანი Dragon Dictate 2.5-ის დამატება. ძიების შესახებ და შემდეგ "ბრძოლა ხუთ გორინიჩთან" მე გეტყვით მიმოხილვის მეორე ნაწილში. ჯერ "ინგლისური დრაკონი" ვიპოვე.

3. უწყვეტი მეტყველების ამოცნობის პროგრამა "Dragon Naturally Speaking"

კომპანიის პროგრამის თანამედროვე ვერსია ნიუანსიჩემს ძველ მეგობართან ერთად აღმოჩნდა მინსკის უცხო ენების ინსტიტუტიდან. საზღვარგარეთ მოგზაურობიდან ჩამოიტანა და იყიდა, ფიქრობდა, რომ შეიძლებოდა ყოფილიყო "კომპიუტერის მდივანი". მაგრამ რაღაც არ მუშაობდა და პროგრამა თითქმის დავიწყებული დარჩა ლეპტოპზე. რაიმე გასაგები გამოცდილების არქონის გამო, მე მომიწია მეგობართან მისვლა. მთელი ეს გრძელი შესავალი აუცილებელია ჩემს მიერ გამოტანილი დასკვნების სწორად გასაგებად.

ჩემი პირველი დრაკონის სრული სახელი იყო: . პროგრამა ინგლისურ ენაზეა და მასში ყველაფერი გასაგებია სახელმძღვანელოს გარეშეც. პირველი ნაბიჯი არის კონკრეტული მომხმარებლის პროფილის შექმნა, რათა დადგინდეს სიტყვების ხმის მახასიათებლები მის შესრულებაში. რაც გავაკეთე - მნიშვნელოვანია მოსაუბრეს ასაკი, ქვეყანა, გამოთქმის თავისებურებები. ჩემი არჩევანია: ასაკი 22-54, ინგლისური დიდი ბრიტანეთი, სტანდარტული გამოთქმა. შემდეგი ჩნდება რამდენიმე ფანჯარა, სადაც დააყენეთ თქვენი მიკროფონი. (სურათი 04)

სერიოზული მეტყველების ამოცნობის პროგრამების შემდეგი ეტაპი არის ტრენინგი კონკრეტული ადამიანის კონკრეტული გამოთქმისთვის. გიწვევთ ტექსტის ბუნების ასარჩევად: ჩემი არჩევანი არის მოკლე ინსტრუქცია კარნახის შესახებ, მაგრამ შეგიძლიათ „შეუკვეთოთ“ იუმორისტული ამბავიც.

პროგრამასთან მუშაობის ამ ეტაპის არსი უკიდურესად მარტივია - ტექსტი ნაჩვენებია ფანჯარაში, მის ზემოთ არის ყვითელი ისარი. სწორი გამოთქმით, ისარი მოძრაობს ფრაზებში, ხოლო ბოლოში არის ტრენინგის პროგრესის ზოლი. ინგლისური საუბარი საკმაოდ დამავიწყდა, ამიტომ გაჭირვებით გადავედი. დროც შეზღუდული იყო – კომპიუტერი ხომ ჩემი არ იყო და მეც მომიწია ვარჯიშის შეწყვეტა. მაგრამ მეგობარმა თქვა, რომ მან ტესტი ნახევარ საათზე ნაკლებ დროში ჩააბარა. (სურათი 05)

უარი ვთქვი პროგრამის ჩემს გამოთქმაზე ადაპტირებაზე, მივედი მთავარ ფანჯარაში და გავუშვი ჩაშენებული ტექსტური რედაქტორი. მან თქვა ცალკე სიტყვები კომპიუტერში ნაპოვნი ტექსტებიდან. ის სიტყვები, რაც მან სწორად თქვა, გადაცემამ დაბეჭდა, ის, რაც მან ცუდად თქვა, შეცვალა რაღაც „ინგლისურით“. ბრძანება "წაშლა ხაზი" ინგლისურად მკაფიოდ წარმოთქმის შემდეგ, პროგრამამ შეასრულა იგი. ეს ნიშნავს, რომ მე სწორად წავიკითხე ბრძანებები და პროგრამა ცნობს მათ წინასწარი მომზადების გარეშე.

მაგრამ ჩემთვის მნიშვნელოვანი იყო, როგორ წერს ეს „დრაკონი“ რუსულად. როგორც წინა აღწერილობიდან მიხვდით, პროგრამის მომზადებისას შეგიძლიათ აირჩიოთ მხოლოდ ინგლისური ტექსტი, იქ უბრალოდ რუსული ტექსტი არ არის. გასაგებია, რომ რუსული მეტყველების აღიარების მომზადება არ გამოდგება. შემდეგ ფოტოზე ხედავთ, რა ფრაზა აკრიფა პროგრამამ რუსული სიტყვის "Hi" წარმოთქმისას. (სურათი 06)

პირველ დრაკონთან კომუნიკაციის შედეგი ოდნავ კომიკური აღმოჩნდა. თუ ყურადღებით წაიკითხავთ ტექსტს ოფიციალურ ვებსაიტზე, შეგიძლიათ ნახოთ ამ პროგრამული პროდუქტის ინგლისური "სპეციალიზაცია". გარდა ამისა, ჩატვირთვისას პროგრამის ფანჯარაში ვკითხულობთ „ინგლისური“. მაშ, რატომ იყო ეს ყველაფერი საჭირო? გასაგებია რომ ფორუმები და ჭორებია დამნაშავე...

მაგრამ არის ასევე სასარგებლო გამოცდილება. ჩემმა მეგობარმა სთხოვა მისი ლეპტოპის მდგომარეობის ნახვა. რატომღაც ნელ-ნელა დაიწყო მუშაობა. ეს გასაკვირი არ არის - სისტემის დანაყოფს მხოლოდ 5% თავისუფალი ადგილი ჰქონდა. არასაჭირო პროგრამების წაშლისას დავინახე, რომ ოფიციალურმა ვერსიამ 2,3 გბ-ზე მეტი დაიკავა. ეს ნომერი მოგვიანებით დაგვჭირდება. (სურათი.07)



რუსული მეტყველების აღიარება, როგორც აღმოჩნდა, არ იყო ტრივიალური ამოცანა. მინსკში მეგობრისგან „გორინიჩის“ პოვნა მოვახერხე. ის დიდხანს ეძებდა დისკს ძველ ნანგრევებში და, მისი თქმით, ეს ოფიციალური გამოცემაა. პროგრამა მყისიერად დაინსტალირდა და გავარკვიე, რომ მისი ლექსიკონი შეიცავს 5000 რუსულ სიტყვას პლუს 100 ბრძანებას და 600 ინგლისურ სიტყვას პლუს 31 ბრძანება.

ჯერ მიკროფონის დაყენება გჭირდებათ, რაც მე გავაკეთე. მერე ლექსიკონი გავხსენი და სიტყვა დავამატე "გამოკვლევა"რადგან ეს არ იყო პროგრამის ლექსიკონში. ვცდილობდი გარკვევით, მონოტონურად მეთქვა. საბოლოოდ, გავხსენი პროგრამა Gorynych Pro 3.0, ჩავრთე კარნახის რეჟიმი და მივიღე ეს სია „სიტყვები, რომლებიც ჟღერადობას ჰგავს“. (სურათი.09)

შედეგმა დამაბნია, რადგან აშკარად განსხვავდებოდა ანდროიდის სმარტფონის მუშაობისგან უარესობისკენ და გადავწყვიტე სხვა პროგრამები გამომეცადა " Google Chrome Web Store". და „გორინიჩ გველებთან“ ურთიერთობა მოგვიანებით გადადო. მე ეს მეგონა გადადებამოქმედება ორიგინალური რუსული სულისკვეთებით

5. Google-ის ხმის შესაძლებლობები

ხმით მუშაობისთვის ჩვეულებრივ კომპიუტერზე OS Windows-ით, თქვენ უნდა დააინსტალიროთ ბრაუზერი გუგლ ქრომი. თუ მასში მუშაობთ ინტერნეტში, მაშინ ქვედა მარჯვენა კუთხეში შეგიძლიათ დააჭიროთ პროგრამული უზრუნველყოფის მაღაზიის ბმულს. იქ, უფასოდ, ვიპოვე ორი პროგრამა და ორი გაფართოება ხმოვანი ტექსტის შეყვანისთვის. პროგრამებს ე.წ "ხმის ნოუთბუქი"და "ვოისნოტი - ხმა ტექსტამდე". ინსტალაციის შემდეგ, ისინი შეგიძლიათ იხილოთ ჩანართზე "აპლიკაციები"თქვენი ბრაუზერი "ქრომი". (სურათი.10)

გაფართოებები ე.წ "Google Voice Search Hotword (ბეტა) 0.1.0.5"და "ხმოვანი შეყვანის ტექსტი - Speechpad.ru 5.4". ინსტალაციის შემდეგ, ისინი შეიძლება გამორთოთ ან წაშალოთ ჩანართზე "გაფართოებები".(სურათი.11)

VoiceNote. Chrome ბრაუზერის აპლიკაციის ჩანართზე ორჯერ დააწკაპუნეთ პროგრამის ხატულაზე. დიალოგური ფანჯარა გაიხსნება, როგორც ეს ნაჩვენებია ქვემოთ მოცემულ სურათზე. მიკროფონის ხატულაზე დაწკაპუნებით, თქვენ ამბობთ მოკლე ფრაზებს მიკროფონში. პროგრამა აგზავნის თქვენს სიტყვებს მეტყველების ამოცნობის სერვერზე და აკრიფებს ტექსტს ფანჯარაში. ილუსტრაციაში ნაჩვენები ყველა სიტყვა და ფრაზა აკრეფილი იყო პირველივე ცდაზე. ცხადია, ეს მეთოდი მუშაობს მხოლოდ აქტიური ინტერნეტ კავშირით. (სურათი.12)

ხმოვანი ბლოკნოტი. თუ პროგრამას გაუშვით აპლიკაციების ჩანართზე, გაიხსნება ინტერნეტ გვერდის ახალი ჩანართი Speechpad.ru. არსებობს დეტალური ინსტრუქცია, თუ როგორ გამოიყენოთ ეს სერვისი და კომპაქტური ფორმა. ეს უკანასკნელი ნაჩვენებია ქვემოთ მოცემულ ილუსტრაციაში. (სურათი.13)

ხმოვანი შეყვანატექსტი საშუალებას გაძლევთ შეავსოთ ინტერნეტ გვერდების ტექსტური ველები თქვენი ხმით. მაგალითად, ჩემს გვერდზე შევედი Google+. ახალი შეტყობინების შეყვანის ველში დააწკაპუნეთ მარჯვენა ღილაკით და აირჩიეთ "SpeechPad". ვარდისფერი შეყვანის ველი ამბობს, რომ თქვენ შეგიძლიათ კარნახოთ თქვენი ტექსტი. (სურათი.14)

Google Voice Searchსაშუალებას გაძლევთ მოძებნოთ ხმით. ამ გაფართოების ინსტალაციისა და გააქტიურებისას, მიკროფონის სიმბოლო გამოჩნდება საძიებო ზოლში. როდესაც დააჭირეთ მას, სიმბოლო გამოჩნდება დიდ წითელ წრეში. უბრალოდ თქვით საძიებო ფრაზა და ის გამოჩნდება ძიების შედეგებში. (სურათი.15)

მნიშვნელოვანი შენიშვნა: იმისათვის, რომ მიკროფონმა იმუშაოს Chrome-ის გაფართოებებთან, თქვენ უნდა დაუშვათ მიკროფონზე წვდომა ბრაუზერის პარამეტრებში. ნაგულისხმევად გამორთულია უსაფრთხოების მიზეზების გამო. ჩააბარე პარამეტრები → პერსონალური მონაცემები → შინაარსის პარამეტრები. (სიის ბოლოს ყველა პარამეტრზე წვდომისთვის დააწკაპუნეთ გაფართოებული პარამეტრების ჩვენება). გაიხსნება დიალოგური ფანჯარა გვერდის კონტენტის პარამეტრები. აირჩიეთ ელემენტი სიიდან მულტიმედია→მიკროფონი.

6. რუსული მეტყველების ამომცნობ პროგრამებთან მუშაობის შედეგები

ტექსტის შეყვანის პროგრამების ხმით გამოყენების მცირე გამოცდილებამ აჩვენა ამ ფუნქციის შესანიშნავი განხორციელება ინტერნეტ კომპანიის სერვერებზე. Google. წინასწარი მომზადების გარეშე, სიტყვები სწორად არის აღიარებული. ეს იმაზე მეტყველებს, რომ რუსული მეტყველების ამოცნობის პრობლემა მოგვარებულია.

ახლა შეგვიძლია ვთქვათ, რომ განვითარების შედეგი Googleიქნება ახალი კრიტერიუმი სხვა მწარმოებლების პროდუქციის შესაფასებლად. ვისურვებდი, რომ ამოცნობის სისტემამ იმუშაოს ოფლაინში კომპანიის სერვერებთან დაკავშირების გარეშე - ეს უფრო მოსახერხებელი და სწრაფია. მაგრამ როდის გამოვა რუსული მეტყველების უწყვეტ ნაკადთან მუშაობის დამოუკიდებელი პროგრამა, უცნობია. თუმცა, ღირს ვივარაუდოთ, რომ ამ "შემოქმედების" მომზადების შესაძლებლობით ნამდვილი გარღვევა იქნება.

რუსი დეველოპერების პროგრამები "გორინიჩი", "დიქტოგრაფი"და "ბრძოლა"მე დეტალურად განვიხილავ ამ მიმოხილვის მეორე ნაწილში. ეს სტატია ძალიან ნელა დაიწერა იმ მიზეზით, რომ ორიგინალური დისკების ძებნა ახლა რთულია. ამ დროისთვის, მე უკვე მაქვს რუსული ხმის ტექსტის ამომცნობი პროგრამის ყველა ვერსია, გარდა Combat 2.52. არცერთ ჩემს მეგობარს და კოლეგას არ აქვს ეს პროგრამა და მე თვითონ მაქვს მხოლოდ რამდენიმე საამაყო მიმოხილვა ფორუმებზე. მართალია, იყო ასეთი უცნაური ვარიანტი - ჩამოტვირთე "Combat" SMS-ით, მაგრამ მე არ მომწონს. (სურათი 16)


მოკლე ვიდეო კლიპი გაჩვენებთ, თუ როგორ მუშაობს მეტყველების ამოცნობა სმარტფონში Android OS-ით. ხმოვანი აკრეფის ფუნქცია არის Google სერვერებთან დაკავშირების საჭიროება. ამრიგად, ინტერნეტი უნდა მუშაობდეს თქვენთვის

) საყოფაცხოვრებო ტექნიკის კონტროლის რეალურ Hello World მაგალითზე.
რატომ საყოფაცხოვრებო ტექნიკა? დიახ, რადგან ასეთი მაგალითის წყალობით შეიძლება ამის დაფასება სიჩქარე და სიზუსტე, რომლის მიღწევაც შესაძლებელია გამოყენებით სრულიად ადგილობრივიმეტყველების ამოცნობა ტიპის სერვერების გარეშე Google ASRან Yandex SpeechKit.
ასევე სტატიას ვამაგრებ პროგრამის ყველა საწყის კოდს და თავად ასამბლეას Android-ისთვის.

რატომ უცებ?

ცოტა ხნის წინ რომ წავაწყდი, ვკითხე ავტორს, რატომ სურდა გამოეყენებინა სერვერის მხრიდან მეტყველების ამოცნობა თავისი პროგრამისთვის (ჩემი აზრით, ეს ზედმეტი იყო და გარკვეულ პრობლემებამდე მიიყვანა). რაზეც მე მივიღე საპირისპირო კითხვა იმის შესახებ, შემიძლია თუ არა უფრო დეტალურად აღვწერო ალტერნატიული მეთოდების გამოყენება პროექტებისთვის, სადაც არაფრის ამოცნობა არ არის საჭირო და ლექსიკონი შედგება სიტყვების სასრული ნაკრებისგან. უფრო მეტიც, პრაქტიკული გამოყენების მაგალითით ...

რატომ გვჭირდება კიდევ რაღაც Yandex-ისა და Google-ის გარდა?

როგორც ეს ძალიან "პრაქტიკული პროგრამა", მე ავირჩიე თემა ჭკვიანი სახლის ხმის კონტროლი.
რატომ ასეთი მაგალითი? იმის გამო, რომ მასზე შეგიძლიათ იხილოთ მეტყველების მთლიანად ადგილობრივი ამოცნობის რამდენიმე უპირატესობა ღრუბლოვანი გადაწყვეტილებების გამოყენებით ამოცნობაზე. კერძოდ:
  • სიჩქარე- ჩვენ არ ვართ დამოკიდებული სერვერებზე და, შესაბამისად, არ ვართ დამოკიდებული მათ ხელმისაწვდომობაზე, გამტარუნარიანობაზე და ა.შ. ფაქტორები
  • სიზუსტე- ჩვენი ძრავა მუშაობს მხოლოდ იმ ლექსიკონით, რომლითაც ჩვენი აპლიკაციაა დაინტერესებული, რითაც იზრდება ამოცნობის ხარისხი
  • ფასი- ჩვენ არ გვიწევს სერვერის თითოეული მოთხოვნის გადახდა
  • ხმის გააქტიურება- როგორც დამატებითი ბონუსი პირველ ქულებს - ჩვენ შეგვიძლია მუდმივად "მოუსმინოთ ჰაერს" ჩვენი ტრაფიკის დახარჯვისა და სერვერის ჩატვირთვის გარეშე

შენიშვნა

დაუყოვნებლივ გავაკეთებ დათქმას, რომ ეს უპირატესობები შეიძლება ჩაითვალოს უპირატესობებად მხოლოდ გარკვეული კლასის პროექტებისთვის, Სად ვართ ჩვენ ჩვენ ზუსტად ვიცით, რომელი ლექსიკონით და რომელი გრამატიკით იმუშავებს მომხმარებელი. ანუ, როცა არ გვჭირდება თვითნებური ტექსტის ამოცნობა (მაგალითად, SMS შეტყობინება, ან საძიებო მოთხოვნა). წინააღმდეგ შემთხვევაში, ღრუბლის ამოცნობა შეუცვლელია.

ასე რომ, ანდროიდს შეუძლია ამოიცნოს მეტყველება ინტერნეტის გარეშე!
დიახ, დიახ ... მხოლოდ JellyBean-ზე. და მხოლოდ ნახევარი მეტრიდან, მეტი არა. და ეს აღიარება იგივე კარნახია, მხოლოდ ბევრად უფრო მცირე მოდელის გამოყენებით. ასე რომ, ჩვენ არ შეგვიძლია მისი მართვა და კონფიგურაცია. და რას დაგვიბრუნებს იგი შემდეგ ჯერზე, უცნობია. მიუხედავად იმისა, რომ SMS-ok მხოლოდ უფლება!

Რას ვაკეთებთ?

ჩვენ განვახორციელებთ ხმოვან დისტანციურ მართვას საყოფაცხოვრებო ტექნიკისთვის, რომელიც იმუშავებს ზუსტად და სწრაფად, რამდენიმე მეტრიდან და თუნდაც იაფფასიან სამუხრუჭე უსარგებლოზე ძალიან იაფფასიან Android სმარტფონებზე, ტაბლეტებსა და საათებზე.
ლოგიკა იქნება მარტივი, მაგრამ ძალიან პრაქტიკული. ჩვენ ვააქტიურებთ მიკროფონს და ვამბობთ ერთი ან რამდენიმე მოწყობილობის სახელს. აპლიკაცია ცნობს მათ და ჩართავს ან გამორთავს მათ მიმდინარე მდგომარეობიდან გამომდინარე. ან იღებს მათგან მდგომარეობას და სასიამოვნო ქალის ხმით წარმოთქვამს. მაგალითად, ოთახში არსებული ტემპერატურა.

უამრავი პრაქტიკული აპლიკაცია

დილით, თვალების გახელის გარეშე, სმარტფონის ეკრანი საწოლის მაგიდაზე დაარტყეს და უბრძანეს „დილა მშვიდობისა!“ - სცენარი იწყება, ყავის მადუღარა ირთვება და ზუზუნებს, სასიამოვნო მუსიკა ისმის, ფარდები იშლება.
კედელზე ყველა ოთახში ჩამოკიდეთ იაფი (2 ათასი, მეტი არა) სმარტფონი. სამუშაოს შემდეგ სახლში მივდივართ და სიცარიელეში ვბრძანებთ „ჭკვიანი სახლი! სინათლე, ტელევიზორი! - რა იქნება შემდეგ, ვფიქრობ, არ არის საჭირო ამის თქმა.

ტრანსკრიფციები



გრამატიკა აღწერს რა რისი თქმა შეუძლია მომხმარებელს. იმისათვის, რომ Pocketsphinx იცოდეს როგორის გამოთქვამს, აუცილებელია გრამატიკიდან თითოეულმა სიტყვამ დაწეროს, თუ როგორ ჟღერს იგი შესაბამის ენობრივ მოდელში. ანუ ტრანსკრიფციაყოველი სიტყვა. მას ეძახიან ლექსიკონი.

ტრანსკრიფციები აღწერილია სპეციალური სინტაქსის გამოყენებით. Მაგალითად:
ჭკვიანი უუ მ ნ აი ჯ სახლი დ ოო მ

პრინციპში, არაფერია რთული. ტრანსკრიფციაში ორმაგი ხმოვანი აღნიშნავს სტრესს. ორმაგი თანხმოვანი არის რბილი თანხმოვანი, რომელსაც მოსდევს ხმოვანი. ყველა შესაძლო კომბინაცია რუსული ენის ყველა ბგერისთვის.

გასაგებია, რომ ჩვენ არ შეგვიძლია წინასწარ აღვწეროთ ყველა ტრანსკრიფცია ჩვენს აპლიკაციაში, რადგან წინასწარ არ ვიცით სახელები, რომლებსაც მომხმარებელი დაარქმევს თავის მოწყობილობებს. ამიტომ, ჩვენ გამოვიმუშავებთ ასეთ ტრანსკრიფციებს ფრენის დროს რუსული ფონეტიკის ზოგიერთი წესის მიხედვით. ამისათვის შეგიძლიათ განახორციელოთ ისეთი PhonMapper კლასი, რომელსაც შეუძლია მიიღოს სტრიქონი შეყვანის სახით და შექმნას მისთვის სწორი ტრანსკრიფცია.

ხმის გააქტიურება

ეს არის მეტყველების ამომცნობი ძრავის უნარი მუდმივად „მოუსმინოს ჰაერს“, რათა უპასუხოს წინასწარ განსაზღვრულ ფრაზას (ან ფრაზებს). ყველა სხვა ბგერა და მეტყველება გაუქმდება. ეს არ არის იგივე, რაც გრამატიკის აღწერა და უბრალოდ მიკროფონის ჩართვა. მე აქ არ მივცემ ამ ამოცანის თეორიას და მისი მუშაობის მექანიზმს. მხოლოდ იმას ვიტყვი, რომ ცოტა ხნის წინ Pocketsphinx-ზე მომუშავე პროგრამისტებმა განახორციელეს ასეთი ფუნქცია და ახლა ის ხელმისაწვდომია API-ში.

ერთი რამ აუცილებლად უნდა აღინიშნოს. აქტივაციის ფრაზისთვის საჭიროა არა მხოლოდ მიუთითოთ ტრანსკრიფცია, არამედ აირჩიოთ შესაბამისი მგრძნობელობის ბარიერის მნიშვნელობა. ძალიან მცირე მნიშვნელობა გამოიწვევს უამრავ ცრუ პოზიტივს (ეს მაშინ, როდესაც თქვენ არ თქვით აქტივაციის ფრაზა, მაგრამ სისტემა აღიარებს მას). და ძალიან მაღალი - იმუნიტეტისკენ. ამიტომ, ამ პარამეტრს განსაკუთრებული მნიშვნელობა აქვს. მნიშვნელობების სავარაუდო დიაპაზონი - 1e-1-დან 1e-40-მდე აქტივაციის ფრაზის მიხედვით.

სიახლოვის გააქტიურება

ეს ამოცანა სპეციფიკურია ჩვენი პროექტისთვის და პირდაპირ არ არის დაკავშირებული აღიარებასთან. კოდი შეგიძლიათ ნახოთ პირდაპირ მთავარ აქტივობაში.
ის ხვდება SensorEventListenerდა მიახლოების მომენტში (სენსორის მნიშვნელობა ნაკლებია მაქსიმალურ მნიშვნელობაზე), ის იწყებს ტაიმერს, გარკვეული შეფერხების შემდეგ ამოწმებს, არის თუ არა სენსორი კვლავ დაბლოკილი. ეს კეთდება ცრუ დადებითი შედეგების თავიდან ასაცილებლად.
როდესაც სენსორი კვლავ არ არის დაბლოკილი, ჩვენ ვწყვეტთ ამოცნობას, ვიღებთ შედეგს (იხილეთ აღწერა ქვემოთ).

ჩვენ ვიწყებთ აღიარებას

Pocketsphinx უზრუნველყოფს მოსახერხებელ API-ს ამოცნობის პროცესის კონფიგურაციისა და გასაშვებად. ეს არის კლასები SpechRecognizerდა SpeechRecognizer Setup.
აი, როგორ გამოიყურება ამოცნობის კონფიგურაცია და გაშვება:

PhonMapper phonMapper = ახალი PhonMapper(getAssets().open("dict/ru/hotwords")); Grammar grammar = new Grammar(names, phonMapper); grammar.addWords(hotword); DataFiles dataFiles = new DataFiles(getPackageName(), "ru"); ფაილი hmmDir = ახალი ფაილი(dataFiles.getHmm()); ფაილი dict = ახალი ფაილი(dataFiles.getDict()); ფაილი jsgf = new File(dataFiles.getJsgf()); copyAssets (hmmDir); saveFile(jsgf, grammar.getJsgf()); saveFile(dict, grammar.getDict()); mRecognizer = SpeechRecognizerSetup.defaultSetup() .setAcousticModel(hmmDir) .setDictionary(dict) .setBoolean("-remove_noise", false) .setKeywordThreshold(1e-7f) .getRecognizer(); mRecognizer.addKeyphraseSearch(KWS_SEARCH, hotword); mRecognizer.addGrammarSearch(COMMAND_SEARCH, jsgf);

აქ ჩვენ პირველ რიგში ვაკოპირებთ ყველა საჭირო ფაილს დისკზე (Pocketpshinx მოითხოვს აკუსტიკური მოდელის, გრამატიკისა და ტრანსკრიფციის ლექსიკონის დისკზე). შემდეგ თავად ამომცნობი ძრავის კონფიგურაცია ხდება. მითითებულია ბილიკები მოდელისა და ლექსიკონის ფაილებისკენ, ასევე რამდენიმე პარამეტრი (გააქტიურების ფრაზის მგრძნობელობის ბარიერი). შემდეგი, კონფიგურირებულია გრამატიკული ფაილის გზა, ასევე აქტივაციის ფრაზა.

როგორც ხედავთ ამ კოდიდან, ერთი ძრავა კონფიგურირებულია როგორც გრამატიკისთვის, ასევე აქტივაციის ფრაზის ამოცნობისთვის. რატომ კეთდება ეს? ასე რომ, ჩვენ შეგვიძლია სწრაფად გადავიტანოთ იმას შორის, რაც ამჟამად გვჭირდება. ასე გამოიყურება აქტივაციის ფრაზის ამოცნობის პროცესის დაწყება:

MRecognizer.startListening (KWS_SEARCH);
და ასე - მეტყველების ამოცნობა მოცემული გრამატიკის მიხედვით:

MRecognizer.startLstening(COMMAND_SEARCH, 3000);
მეორე არგუმენტი (სურვილისამებრ) არის მილიწამების რაოდენობა, რომლის შემდეგაც ამოცნობა ავტომატურად დასრულდება, თუ არავინ არაფერს იტყვის.
როგორც ხედავთ, ორივე პრობლემის გადასაჭრელად შეგიძლიათ გამოიყენოთ მხოლოდ ერთი ძრავა.

როგორ მივიღოთ აღიარების შედეგი

ამოცნობის შედეგის მისაღებად, თქვენ ასევე უნდა მიუთითოთ მოვლენის მსმენელი, რომელიც ახორციელებს ინტერფეისს აღიარება მოსმენა.
მას აქვს რამდენიმე მეთოდი, რომელსაც უწოდებენ ჯიბის ფინგს, როდესაც ხდება ერთ-ერთი მოვლენა:
  • მეტყველების დასაწყისში- ძრავმა გაიგო რაღაც ხმა, იქნებ ეს არის მეტყველება (ან შეიძლება არა)
  • onEndOfSpeech- ხმა დასრულდა
  • ნაწილობრივ შედეგზე- არის შუალედური ამოცნობის შედეგები. გააქტიურების ფრაზისთვის ეს ნიშნავს, რომ ის მუშაობდა. არგუმენტი ჰიპოთეზა
  • შედეგზე- აღიარების საბოლოო შედეგი. ეს მეთოდი გამოიძახება მეთოდის გამოძახების შემდეგ გაჩერებაზე Speech Recognizer. არგუმენტი ჰიპოთეზაშეიცავს ამოცნობის მონაცემებს (სტრიქონი და ქულა)

onPartialResult და onResult მეთოდების ამა თუ იმ გზით დანერგვით, შეგიძლიათ შეცვალოთ ამოცნობის ლოგიკა და მიიღოთ საბოლოო შედეგი. აი, როგორ კეთდება ეს ჩვენი აპლიკაციისთვის:

@Override public void onEndOfSpeech() ( Log.d(TAG, "onEndOfSpeech"); if (mRecognizer.getSearchName().equals(COMMAND_SEARCH)) ( mRecognizer.stop(); ) ) @Override public void)hypoultthepoysisial ( if (ჰიპოთეზა == null) დაბრუნდება; სიმებიანი ტექსტი = hypothesis.getHypstr(); if (KWS_SEARCH.equals(mRecognizer.getSearchName())) ( startRecognition(); ) else (Log.d(TAG, ტექსტი); ) ) @Override public void onResult(ჰიპოთეზის ჰიპოთეზა) ( mMicView.setBackgroundResource(R.drawable.background_big_mic); mHandler.removeCallbacks(mStopRecognitionCallback); სიმებიანი ტექსტი = ჰიპოთეზა != null ? hypothesis.hy , "onResult" + ტექსტი); if (COMMAND_SEARCH.equals(mRecognizer.getSearchName())) (if (ტექსტი != null) ( Toast.makeText(this, text, Toast.LENGTH_SHORT).show(); process(ტექსტი );) mRecognizer.startLstening(KWS_SEARCH); ) )

როდესაც მივიღებთ onEndOfSpeech მოვლენას და თუ ამავდროულად ვაღიარებთ შესასრულებელ ბრძანებას, მაშინ უნდა შევწყვიტოთ ამოცნობა, რის შემდეგაც დაუყოვნებლივ გამოიძახება onResult.
onResult-ში, თქვენ უნდა შეამოწმოთ, რა იყო ახლახან აღიარებული. თუ ეს არის ბრძანება, მაშინ უნდა გაუშვათ იგი შესასრულებლად და ჩართოთ ძრავა აქტივაციის ფრაზის ამოცნობისთვის.
onPartialResult-ში ჩვენ მხოლოდ დაინტერესებული ვართ აქტივაციის ფრაზის ამოცნობით. თუ აღმოვაჩენთ, მაშინვე ვიწყებთ ბრძანების ამოცნობის პროცესს. აი, როგორ გამოიყურება:

პირადი სინქრონიზებული void startRecognition() ( if (mRecognizer == null || COMMAND_SEARCH.equals(mRecognizer.getSearchName())) დაბრუნდება; mRecognizer.cancel(); ახალი ToneGenerator(AudioManager.STREAM_MUSIC.STREAM_MUSICT,XeneratorOnest. TONE_CDMA_PIP, 200); post(400, new Runnable() ( @Override public void run() ( mMicView.setBackgroundResource(R.drawable.background_big_mic_green); mRecognizer.startListening(COMMAND_SEARCH, LogListend(TAG, 300); ბრძანებები"); post(4000, mStopRecognitionCallback); ) )); )
აქ ჩვენ ჯერ პატარა სიგნალს ვუკრავთ, რათა მომხმარებელს ვაცნობოთ, რომ გავიგეთ და მზად ვართ მისი ბრძანებისთვის. ამ დროის განმავლობაში მიკროფონი უნდა გამორთოთ. ამიტომ, ჩვენ ვიწყებთ ამოცნობას მცირე დროის გასვლის შემდეგ (სიგნალის ხანგრძლივობაზე ოდნავ მეტი, რომ არ გავიგოთ მისი ექო). ის ასევე იწყებს თემას, რომელიც აიძულებს შეწყვიტოს აღიარება, თუ მომხმარებელი ძალიან დიდხანს ისაუბრებს. ამ შემთხვევაში ეს არის 3 წამი.

როგორ გადავაქციოთ აღიარებული სტრიქონი ბრძანებებად

ისე, ყველაფერი უკვე სპეციფიკურია კონკრეტული აპლიკაციისთვის. შიშველი მაგალითის შემთხვევაში, ჩვენ უბრალოდ ამოვიღებთ მოწყობილობის სახელებს ხაზიდან, ვეძებთ სასურველ მოწყობილობას და ან ვცვლით მის მდგომარეობას HTTP მოთხოვნის გამოყენებით ჭკვიანი სახლის კონტროლერზე, ან ვაცნობთ მის ამჟამინდელ მდგომარეობას (როგორც ამ შემთხვევაში თერმოსტატი). ეს ლოგიკა ჩანს Controller კლასში.

როგორ მოვახდინოთ მეტყველების სინთეზი

მეტყველების სინთეზი არის ამოცნობის საპირისპირო ოპერაცია. აქ, პირიქით, თქვენ უნდა გადააქციოთ ტექსტის ხაზი მეტყველებად, რათა მომხმარებელმა ის გაიგოს.
თერმოსტატის შემთხვევაში, ჩვენს Android მოწყობილობას უნდა ვაჩვენოთ მიმდინარე ტემპერატურა. API-ს გამოყენება TextToSpeechამის გაკეთება საკმაოდ მარტივია (მადლობა Google-ს ლამაზი ქალის TTS-ისთვის რუსული ენისთვის):

პირადი void speak (სტრიქონის ტექსტი) ( სინქრონიზებული (mSpeechQueue) (mRecognizer.stop(); mSpeechQueue.add(ტექსტი); HashMap პარამები = ახალი HashMap (2); params.put(TextToSpeech.Engine.KEY_PARAM_UTTERANCE_ID, UUID.randomUUID().toString()); params.put(TextToSpeech.Engine.KEY_PARAM_STREAM, String.valueOf(AudioManager.STREAM_MUSIC)); params.put(TextToSpeech.Engine.KEY_FEATURE_NETWORK_SYNTHESIS, "true"); mTextToSpeech.speak(ტექსტი, TextToSpeech.QUEUE_ADD, პარამები); ))

ალბათ ვიტყვი, რომ ბანალურია, მაგრამ სინთეზის პროცესის დაწყებამდე აუცილებელია ამოცნობის გამორთვა. ზოგიერთ მოწყობილობაზე (მაგალითად, ყველა სამსუნგზე) ზოგადად შეუძლებელია მიკროფონის მოსმენა და ერთდროულად რაღაცის სინთეზირება.
მეტყველების სინთეზის დასასრული (ანუ სინთეზატორის მიერ ტექსტის წარმოთქმის პროცესის დასასრული) შეიძლება თვალყური ადევნოს მსმენელში:

პირადი საბოლოო TextToSpeech.OnUtteranceCompletedListener mUtteranceCompletedListener = ახალი TextToSpeech.OnUtteranceCompletedListener() ( @Override public void onUtteranceCompleted(string utteranceId) (სინქრონიზებული (mSpeechQuempouell) (სინქრონიზებული (mSpeechQuempouell) (mSpeechQuempouell) KWS_SEARCH) ;) ) ) );

მასში ჩვენ უბრალოდ ვამოწმებთ, არის თუ არა რაიმე სხვა სინთეზის რიგში და ჩართეთ აქტივაციის ფრაზის ამოცნობა, თუ სხვა არაფერია.

და ეს ყველაფერი?

დიახ! როგორც ხედავთ, არ არის რთული მეტყველების სწრაფად და ზუსტად ამოცნობა პირდაპირ მოწყობილობაზე, ისეთი მშვენიერი პროექტების არსებობის წყალობით, როგორიცაა Pocketsphinx. ის უზრუნველყოფს ძალიან მოსახერხებელ API-ს, რომელიც შეიძლება გამოყენებულ იქნას ხმოვანი ბრძანებების ამოცნობასთან დაკავშირებული პრობლემების გადასაჭრელად.

ამ მაგალითში, ჩვენ ამოვიცანი სრულიად სწორი დავალება - ჭკვიანი სახლის მოწყობილობების ხმოვანი კონტროლი. ადგილობრივი აღიარების გამო, ჩვენ მივაღწიეთ ძალიან მაღალ სიჩქარეს და შევამცირეთ შეცდომები.
გასაგებია, რომ იგივე კოდის გამოყენება შესაძლებელია ხმასთან დაკავშირებული სხვა ამოცანებისთვის. ეს არ უნდა იყოს ჭკვიანი სახლი. ტეგების დამატება