স্পিচ রিকগনিশন কিভাবে করবেন। সেরা রাশিয়ান বক্তৃতা স্বীকৃতি প্রোগ্রাম

SendPulse পরিষেবা হল একটি সাবস্ক্রিপশন বেস তৈরি করার জন্য এবং আপনার সাইটে র্যান্ডম ভিজিটরদের নিয়মিত সাইটে রূপান্তর করার জন্য একটি মার্কেটিং টুল। SendPulse একটি প্ল্যাটফর্মে গ্রাহকদের আকর্ষণ এবং ধরে রাখার জন্য সবচেয়ে গুরুত্বপূর্ণ বৈশিষ্ট্যগুলিকে একত্রিত করে:
● ই-মেইল নিউজলেটার,
● ওয়েব-পুশ,
● SMS মেইলিং,
● SMTP,
● ভাইবারে মেইলিং,
● ফেসবুক মেসেঞ্জারে বার্তা পাঠান।

ইমেইল নিউজলেটার

আপনি বিনামূল্যের সহ ই-মেইল নিউজলেটার পরিচালনার জন্য বিভিন্ন শুল্ক ব্যবহার করতে পারেন। বিনামূল্যের পরিকল্পনার সীমাবদ্ধতা রয়েছে: সাবস্ক্রিপশন বেস 2500-এর বেশি নয়।
একটি ই-মেইল মেইলিং পরিষেবার সাথে কাজ করার সময় প্রথম জিনিসটি আপনার নিজের তৈরি করা ঠিকানা বই. একটি শিরোনাম সেট করুন এবং ইমেল ঠিকানাগুলির একটি তালিকা আপলোড করুন৷


SendPulse তৈরি করা সহজ করে তোলে সাবস্ক্রিপশন ফর্মএকটি পপ-আপ উইন্ডো আকারে, এম্বেড করা ফর্ম, স্ক্রিনের একটি নির্দিষ্ট অংশে ভাসমান এবং স্থির। সাবস্ক্রিপশন ফর্মের সাহায্যে, আপনি স্ক্র্যাচ থেকে একটি গ্রাহক বেস সংগ্রহ করবেন বা নতুন ঠিকানা দিয়ে আপনার বেস পরিপূরক করবেন।
ফর্ম বিল্ডারে, আপনি ঠিক সাবস্ক্রিপশন ফর্ম তৈরি করতে পারেন যা আপনার প্রয়োজনের জন্য সবচেয়ে উপযুক্ত, এবং পরিষেবা টিপস আপনাকে এই কাজটি মোকাবেলা করতে সহায়তা করবে। উপলব্ধ রেডিমেড ফর্মগুলির একটি ব্যবহার করাও সম্ভব।


সাবস্ক্রিপশন ফর্ম তৈরি করার সময়, একটি কর্পোরেট ডোমেন সহ একটি ই-মেইল ব্যবহার করা বাধ্যতামূলক৷ কিভাবে পড়ুন.
বার্তা টেমপ্লেটগ্রাহকদের কাছে আপনার চিঠিগুলি সুন্দরভাবে ডিজাইন করতে সাহায্য করবে। আপনি একটি বিশেষ কনস্ট্রাক্টরে আপনার নিজস্ব চিঠি টেমপ্লেট তৈরি করতে পারেন।


স্বয়ংক্রিয় মেইলিং. বিষয়বস্তু পরিচালকরা সক্রিয়ভাবে স্বয়ংক্রিয় বিতরণ ব্যবহার করে। এটি ক্লায়েন্টদের সাথে কাজ করার প্রক্রিয়াটিকে স্বয়ংক্রিয় করতে সহায়তা করে। একটি স্বয়ংক্রিয় মেইলার তৈরি করার বিভিন্ন উপায় রয়েছে:
অক্ষরের ক্রমিক সিরিজ. এটি হল সবচেয়ে সহজ বিকল্প, যখন, শর্ত নির্বিশেষে, বেশ কয়েকটি চিঠি লেখা হয় যা একটি নির্দিষ্ট ক্রমে প্রাপকদের কাছে পাঠানো হবে। এখানে বিকল্প থাকতে পারে - বার্তা সিরিজ(সরল বার্তা চেইন), বিশেষ তারিখ(চিঠি নির্দিষ্ট তারিখের জন্য নির্ধারিত হয়), ট্রিগার চিঠি- গ্রাহকের কর্মের উপর নির্ভর করে চিঠিটি পাঠানো হয় (বার্তা খোলা ইত্যাদি)।
অটোমেশন360- নির্দিষ্ট ফিল্টার এবং শর্তাবলী সহ মেইলিং, সেইসাথে রূপান্তরগুলি বিবেচনায় নিয়ে।
সমাপ্ত চেইনটেমপ্লেট দ্বারা। আপনি একটি প্রদত্ত টেমপ্লেটের উপর ভিত্তি করে অক্ষরগুলির একটি সিরিজ তৈরি করতে পারেন, বা টেমপ্লেটটি সংশোধন করতে পারেন এবং আপনার প্রয়োজন অনুসারে এটি কাস্টমাইজ করতে পারেন।
A/B পরীক্ষাইমেলের একটি সিরিজ পাঠানোর জন্য আপনাকে বিভিন্ন বিকল্পের সাথে পরীক্ষা করতে সাহায্য করবে এবং ওপেন বা ট্রানজিশনের জন্য সেরা বিকল্প নির্ধারণ করবে।

পুশ বিজ্ঞপ্তি পাঠানো হচ্ছে

পুশ-মেলিং হল একটি ব্রাউজার উইন্ডোতে একটি সাবস্ক্রিপশন, এটি আরএসএস-সাবস্ক্রিপশনের এক ধরনের প্রতিস্থাপন। ওয়েব-পুশ প্রযুক্তিগুলি আমাদের জীবনে দ্রুত প্রবেশ করেছে, এবং গ্রাহকদের আকৃষ্ট করতে এবং ধরে রাখতে পুশ মেলিং ব্যবহার করে না এমন একটি সাইট খুঁজে পাওয়া ইতিমধ্যেই কঠিন। স্ক্রিপ্টের জন্য অনুরোধ করুন, আপনি ম্যানুয়ালি ইমেল পাঠাতে পারেন এবং ইমেলের একটি সিরিজ তৈরি করে বা RSS থেকে ডেটা সংগ্রহ করে স্বয়ংক্রিয়-সম্প্রচার তৈরি করতে পারেন। দ্বিতীয় বিকল্পটি বোঝায় যে আপনার সাইটে একটি নতুন নিবন্ধ উপস্থিত হওয়ার পরে, এটি সম্পর্কে একটি বিজ্ঞপ্তি স্বয়ংক্রিয়ভাবে আপনার গ্রাহকদের কাছে একটি সংক্ষিপ্ত ঘোষণা সহ পাঠানো হবে।


পাঠান থেকে নতুনস্পন্দন- এখন আপনি তাদের মধ্যে বিজ্ঞাপন এমবেড করে পুশ বিজ্ঞপ্তি দিয়ে আপনার সাইট নগদীকরণ করতে পারেন। $10 এ পৌঁছানোর পর, প্রতি সোমবার পেমেন্ট করা হয় পেমেন্ট সিস্টেমগুলির একটিতে - ভিসা/মাস্টারকার্ড, পেপ্যাল ​​বা ওয়েবমনি।
পরিষেবাতে পুশ বার্তাগুলি একেবারে বিনামূল্যে। অর্থপ্রদান শুধুমাত্র হোয়াইট লেবেলের জন্য নেওয়া হয় - SendPulse পরিষেবার উল্লেখ না করেই মেইলিং, কিন্তু পরিষেবার লোগোটি যদি আপনাকে বিরক্ত না করে, তাহলে আপনি সীমাবদ্ধতা ছাড়াই বিনামূল্যে পুশ বিজ্ঞপ্তিগুলি ব্যবহার করতে পারেন।

SMTP

SMTP বৈশিষ্ট্য সাদা আইপি ঠিকানা ব্যবহার করে আপনার মেইলিং তালিকাকে কালো তালিকাভুক্ত হওয়া থেকে রক্ষা করে। SendPulse মেলিংয়ে ব্যবহৃত DKIM এবং SPF ক্রিপ্টোগ্রাফিক স্বাক্ষর প্রযুক্তিগুলি আপনার পাঠানো ইমেলের বিশ্বাসযোগ্যতা বাড়ায়, যার ফলে আপনার ইমেলগুলি স্প্যাম বা কালো তালিকাভুক্ত হওয়ার সম্ভাবনা কম থাকে।

ফেসবুক মেসেঞ্জার বট

ফেসবুক চ্যাটবট বিটা পরীক্ষায় রয়েছে। আপনি এটিকে আপনার পৃষ্ঠার সাথে সংযুক্ত করতে পারেন এবং গ্রাহকদের বার্তা পাঠাতে পারেন৷

এসএমএস পাঠানো হচ্ছে

SendPulse পরিষেবার মাধ্যমে, ফোন নম্বরের ডাটাবেসে মেইলিং পাঠানো সহজ। প্রথমে আপনাকে ফোন নম্বরগুলির একটি তালিকা সহ একটি ঠিকানা বই তৈরি করতে হবে। এটি করতে, "ঠিকানা বই" বিভাগটি নির্বাচন করুন, একটি নতুন ঠিকানা বই তৈরি করুন, ফোন নম্বর আপলোড করুন। এখন আপনি এই ডাটাবেসের জন্য একটি SMS মেলিং তালিকা তৈরি করতে পারেন৷ এসএমএস মেলিংয়ের মূল্য প্রাপকদের টেলিকম অপারেটরের উপর নির্ভর করে এবং গড়ে 1.26 রুবেল থেকে 2.55 রুবেল প্রতি 1টি এসএমএস পাঠানোর উপর নির্ভর করে।

অনুমোদন অনুষ্ঠান

SendPulse একটি অ্যাফিলিয়েট প্রোগ্রাম প্রয়োগ করে যেখানে আপনার লিঙ্কটি ব্যবহার করে একজন নিবন্ধিত ব্যবহারকারী যিনি ট্যারিফ পরিশোধ করেছেন আপনাকে 4,000 রুবেল আনবে। আমন্ত্রিত ব্যবহারকারী পরিষেবাটি ব্যবহার করার প্রথম 5 মাসের জন্য 4000 রুবেল ছাড় পাবেন।

বধির এবং শ্রবণশক্তিহীনদের জন্য ফোন ক্যাপশন

আপনার স্ক্রীনকে একটি দুর্দান্ত ফোন হেডারে পরিণত করুন। এটি সম্পূর্ণ স্বয়ংক্রিয়, কোনো মানুষের শ্রবণ-টাইপিস্ট আপনার কথোপকথন টাইপ করে না। ফোনে পরিবার এবং বন্ধুদের শুনতে হার্ড দাদা খুঁজে? তাদের জন্য স্পিচলগার চালু করুন এবং ফোনে চিৎকার করা বন্ধ করুন। শুধু আপনার কম্পিউটারের অডিও ইনপুটে আপনার ফোনের অডিও আউটপুট সংযোগ করুন এবং Speechlogger চালান৷ এটি মুখোমুখি মিথস্ক্রিয়াতেও কার্যকর।

স্বয়ংক্রিয় প্রতিলিপি

আপনি কি সাক্ষাৎকার রেকর্ড করেছেন? Google-এর স্বয়ংক্রিয় বক্তৃতা থেকে Speechlogger আপনার ব্রাউজারে আনা পাঠ্য থেকে এটিকে পুনঃলিখন করে কিছু সময় বাঁচান। রেকর্ড করা সাক্ষাৎকারটি আপনার কম্পিউটারের মাইক্রোফোনে (বা লাইনে) চালান এবং স্পিচলগারকে ট্রান্সক্রিপশন করতে দিন। স্পিচলগার তারিখ, সময় এবং আপনার মন্তব্য সহ পাঠ্যের প্রতিলিপি সংরক্ষণ করে। এটি আপনাকে পাঠ্য সম্পাদনা করার অনুমতি দেয়। একই পদ্ধতি ব্যবহার করে টেলিফোন কথোপকথন প্রতিলিপি করা যেতে পারে। আপনি নীচের বর্ণনা অনুযায়ী আপনার কম্পিউটার থেকে সরাসরি অডিও ফাইল রেকর্ড করতে পারেন।

স্বয়ংক্রিয় দোভাষী এবং অনুবাদক

বিদেশি অতিথিদের সঙ্গে দেখা? একটি স্পিচলগার এবং মাইক্রোফোন সহ একটি ল্যাপটপ (বা দুটি) আনুন। প্রতিটি পক্ষ অন্যের কথ্য শব্দগুলিকে বাস্তব সময়ে তাদের নিজস্ব ভাষায় অনুবাদ করা দেখতে পাবে। আপনি অন্য দিকটি সম্পূর্ণরূপে বুঝতে পেরেছেন তা নিশ্চিত করতে একটি বিদেশী ভাষায় একটি ফোন কল করাও সহায়ক। আপনার কম্পিউটারের লাইন-ইন-এ আপনার ফোনের অডিও আউটপুট সংযোগ করুন এবং স্পিচলগার শুরু করুন৷

বিদেশী ভাষা শিখুন এবং আপনার উচ্চারণ দক্ষতা উন্নত করুন

স্পিচলগার একটি দুর্দান্ত ভাষা শেখার সরঞ্জাম এবং এটি বিভিন্ন উপায়ে ব্যবহার করা যেতে পারে। আপনি আপনার স্থানীয় ভাষায় কথা বলে এবং সফ্টওয়্যারটিকে এটি অনুবাদ করতে দিয়ে শব্দভান্ডার শিখতে এটি ব্যবহার করতে পারেন। আপনি একটি বিদেশী ভাষায় কথা বলে সঠিক উচ্চারণ শিখতে এবং অনুশীলন করতে পারেন এবং স্পিচলগার বোঝেন কি না তা দেখে। যদি টেক্সটটি কালো হরফে ট্রান্সক্রাইব করা হয় তবে এর মানে হল যে আপনি এটি ভালভাবে উচ্চারণ করেছেন।

মুভি সাবটাইটেল প্রজন্ম

স্পিচলগার স্বয়ংক্রিয়ভাবে চলচ্চিত্র বা অন্যান্য শব্দ ফাইল রেকর্ড করতে পারে। তারপর ফাইলটি নিন এবং আন্তর্জাতিক সাবটাইটেল তৈরি করতে স্বয়ংক্রিয়ভাবে এটিকে যেকোনো ভাষায় অনুবাদ করুন।

টাইপ করার পরিবর্তে ডিকটেট করুন

একটা চিঠি লিখছি? কাগজপত্র? তালিকা? সারসংক্ষেপ? আপনার যা টাইপ করতে হবে, তার পরিবর্তে স্পিচলগারের কাছে তা নির্দেশ করার চেষ্টা করুন। স্পিচলগার এটি স্বয়ংক্রিয়ভাবে আপনার জন্য সংরক্ষণ করবে এবং আপনাকে এটি একটি নথিতে রপ্তানি করতে দেবে।

মজার খেলা :)

আপনি চীনা স্পিকার অনুকরণ করতে পারেন? ফরাসি? রাশিয়ান সম্পর্কে কি? একটি বিদেশী ভাষা অনুকরণ করার চেষ্টা করুন এবং দেখুন আপনি স্পিচলগারের সাথে কি বলেছেন। আপনি এইমাত্র যা বলেছেন তা বুঝতে স্পিচলগারের একযোগে অনুবাদ ব্যবহার করুন। আশ্চর্যজনক ফলাফল পান - এটা অনেক মজা!

ফেসবুকে আমাদের জিজ্ঞাসা করা হয়েছিল:
"পাঠ্যটির সাথে কাজ করার জন্য, আমাকে 3 ঘন্টার ভয়েস রেকর্ডিং প্রতিলিপি করতে হবে৷ আমি ইউটিউবে একটি ছবি সহ একটি অডিও ফাইল আপলোড করার এবং তাদের পাঠ্য ট্রান্সক্রিবার ব্যবহার করার চেষ্টা করেছি, তবে এটি এক ধরণের আব্রাকাডাব্রা পরিণত হয়েছে। আপনি দয়া করে আমাকে বলবেন কিভাবে এটি প্রযুক্তিগতভাবে সমাধান করবেন? ধন্যবাদ!
আলেকজান্ডার কোনভালভ»

আলেকজান্ডার, একটি সহজ প্রযুক্তিগত সমাধান আছে - কিন্তু ফলাফল শুধুমাত্র আপনার রেকর্ডিং মানের উপর নির্ভর করবে. আমি কোন গুণের কথা বলছি তা আমাকে ব্যাখ্যা করতে দিন।

সাম্প্রতিক বছরগুলিতে, রাশিয়ান বক্তৃতা স্বীকৃতি প্রযুক্তি অনেক উন্নত হয়েছে। স্বীকৃতি ত্রুটির শতাংশ এমন একটি স্তরে হ্রাস পেয়েছে যে কীবোর্ডে সম্পূর্ণ পাঠ্য টাইপ করার চেয়ে একটি বিশেষ মোবাইল অ্যাপ্লিকেশন বা ইন্টারনেট পরিষেবাতে অন্য পাঠ্য "কথা বলা" সহজ হয়ে উঠেছে, ম্যানুয়ালি পৃথক "ভুলগুলি" সংশোধন করা হয়েছে।

কিন্তু স্বীকৃতি সিস্টেমের কৃত্রিম বুদ্ধিমত্তার জন্য তার কাজ করতে সক্ষম হওয়ার জন্য, ব্যবহারকারীকে তার নিজের কাজ করতে হবে। যথা: মাইক্রোফোনে স্পষ্টভাবে এবং পরিমাপ করে কথা বলুন, শক্তিশালী ব্যাকগ্রাউন্ডের শব্দ এড়িয়ে চলুন, যদি সম্ভব হয়, একটি স্টেরিও হেডসেট বা বোতামহোলের সাথে সংযুক্ত একটি বাহ্যিক মাইক্রোফোন ব্যবহার করুন (স্বীকৃতি মানের জন্য, মাইক্রোফোনটি সর্বদা ঠোঁট থেকে একই দূরত্বে থাকা গুরুত্বপূর্ণ , এবং আপনি নিজেই একই ভলিউমে কথা বলেন)। স্বাভাবিকভাবেই, অডিও ডিভাইসের ক্লাস যত বেশি হবে তত ভালো।

এই শর্তগুলি মেনে চলা সহজ যদি আপনি, স্পীচ রিকগনিশন ইন্টারনেট পরিষেবা সরাসরি অ্যাক্সেস করার পরিবর্তে, একটি মধ্যবর্তী মধ্যস্থতাকারী ডিভাইস হিসাবে একটি ভয়েস রেকর্ডার ব্যবহার করেন। যাইহোক, এই জাতীয় "ব্যক্তিগত সচিব" বিশেষত অপরিহার্য যখন আপনার অনলাইনে অ্যাক্সেস নেই। স্বাভাবিকভাবেই, একটি সস্তা mp3 প্লেয়ার বা স্মার্টফোনে তৈরি রেকর্ডিং ডিভাইসের চেয়ে অন্তত একটি সস্তা পেশাদার ভয়েস রেকর্ডার ব্যবহার করা ভাল। এটি স্পিচ রিকগনিশন সার্ভিসে প্রাপ্ত রেকর্ডগুলিকে "ফিডিং" করার আরও ভাল সুযোগ দেবে৷

এটি কঠিন, তবে আপনি যে কথোপকথনটি করছেন তাকে এই নিয়মগুলি অনুসরণ করার জন্য রাজি করানো সম্ভব (আরও একটি উপদেশ: যদি আপনার কিটে কাপড়ের পিনে একটি বহিরাগত মাইক্রোফোন না থাকে তবে অন্তত কথোপকথকের পাশে রেকর্ডারটি রাখুন। , এবং আপনার সাথে নয়)।

তবে স্বয়ংক্রিয় মোডে প্রয়োজনীয় স্তরে একটি সম্মেলন বা একটি সেমিনারের "রূপরেখা" করা আমার মতে, কার্যত অবাস্তব (সর্বোপরি, আপনি বক্তাদের বক্তৃতা এবং শ্রোতাদের প্রতিক্রিয়া নিয়ন্ত্রণ করতে পারবেন না)। যদিও বেশ আকর্ষণীয় বিকল্প: পেশাদারভাবে রেকর্ড করা অডিও বক্তৃতা এবং অডিও বইগুলিকে পাঠ্যে পরিণত করা (যদি ব্যাকগ্রাউন্ড মিউজিক এবং শব্দগুলি তাদের উপর চাপানো না হয়)।

আসুন আশা করি যে আপনার ডিক্টাফোন রেকর্ডিংয়ের গুণমানটি এটির পাঠোদ্ধার করতে সক্ষম হওয়ার জন্য যথেষ্ট উচ্চ স্বয়ংক্রিয় মোড.

যদি না হয়, প্রায় কোনো রেকর্ডিং গুণমান সহ, আপনি ডিক্রিপ্ট করতে পারেন আধা-স্বয়ংক্রিয় মোড.

এছাড়াও, বেশ কয়েকটি পরিস্থিতিতে, সময় এবং প্রচেষ্টার সর্বাধিক সঞ্চয় আপনাকে নিয়ে আসবে, বিপরীতভাবে, ডিকোডিং ম্যানুয়াল মোডে. আরও স্পষ্টভাবে, যে সংস্করণটি আমি নিজেই এক ডজন বছর ধরে ব্যবহার করছি। 🙂

সুতরাং, ক্রমে.

1. স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি

অনেকে ইউটিউবে ভয়েস রেকর্ডিং প্রতিলিপি করার পরামর্শ দেন। কিন্তু এই পদ্ধতিটি ব্যবহারকারীকে অডিও ফাইল এবং ব্যাকগ্রাউন্ড ইমেজ ডাউনলোড করতে এবং তারপর টাইমস্ট্যাম্প থেকে প্রাপ্ত পাঠ্য পরিষ্কার করতে সময় ব্যয় করতে বাধ্য করে। এদিকে, এই সময় সংরক্ষণ করা সহজ। 🙂

আপনি Google সনাক্তকরণ ইঞ্জিন দ্বারা চালিত ইন্টারনেট পরিষেবাগুলির একটির ক্ষমতা ব্যবহার করে সরাসরি আপনার কম্পিউটার থেকে অডিও রেকর্ডিংগুলি চিনতে পারেন (আমি Speechpad.ru বা Speechlogger.com সুপারিশ করছি)৷ আপনাকে যা করতে হবে তা হল একটি ছোট কৌশল করা: মাইক্রোফোন থেকে আপনার ভয়েস বাজানোর পরিবর্তে, আপনার কম্পিউটার প্লেয়ার দ্বারা বাজানো অডিও স্ট্রিমটিকে পরিষেবাতে পুনর্নির্দেশ করুন৷

এই কৌশলটিকে একটি সফ্টওয়্যার স্টেরিও মিক্সার বলা হয় (সাধারণত কম্পিউটারে গান রেকর্ড করার জন্য বা কম্পিউটার থেকে ইন্টারনেটে সম্প্রচার করার জন্য ব্যবহৃত হয়)।

স্টেরিও মিক্সারটি Windows XP-এর অংশ ছিল - কিন্তু বিকাশকারীরা এই অপারেটিং সিস্টেমের পরবর্তী সংস্করণগুলি থেকে সরিয়ে দিয়েছিল (তারা বলে, কপিরাইট রক্ষা করার জন্য: যাতে গেমাররা গেমগুলি থেকে সঙ্গীত চুরি না করে)। যাইহোক, অডিও কার্ডের জন্য ড্রাইভারের সাথে স্টেরিও মিক্সার আসা অস্বাভাবিক কিছু নয় (উদাহরণস্বরূপ, মাদারবোর্ডে তৈরি রিয়েলটেক কার্ড)। আপনি যদি নীচের স্ক্রিনশটগুলি ব্যবহার করে আপনার পিসিতে স্টেরিও মিক্সারটি খুঁজে না পান তবে আপনার মাদারবোর্ডের সাথে আসা সিডি থেকে বা মাদারবোর্ড প্রস্তুতকারকের ওয়েবসাইট থেকে অডিও ড্রাইভারগুলি পুনরায় ইনস্টল করার চেষ্টা করুন৷

যদি এটি সাহায্য না করে তবে আপনার কম্পিউটারে একটি বিকল্প প্রোগ্রাম ইনস্টল করুন। উদাহরণস্বরূপ - বিনামূল্যের VB-CABLE ভার্চুয়াল অডিও ডিভাইস : উপরে উল্লিখিত Speechpad.ru পরিষেবার মালিক এটি ব্যবহার করার পরামর্শ দেন।

প্রথম ধাপরেকর্ডিং মোডে ব্যবহারের জন্য আপনাকে অবশ্যই মাইক্রোফোনটি নিষ্ক্রিয় করতে হবে এবং পরিবর্তে স্টেরিও মিক্সার (বা ভার্চুয়াল VB-ক্যাবল) সক্ষম করতে হবে৷

এটি করতে, নীচের ডানদিকে (ঘড়ির কাছাকাছি) স্পিকার আইকনে ক্লিক করুন - বা "কন্ট্রোল প্যানেল" এ "শব্দ" বিভাগটি নির্বাচন করুন। যে উইন্ডোটি খোলে তার "রেকর্ড" ট্যাবে, "সংযোগ বিচ্ছিন্ন ডিভাইসগুলি দেখান" এবং "সংযোগ বিচ্ছিন্ন ডিভাইসগুলি দেখান" আইটেমগুলির পাশের বাক্সগুলিতে ডান-ক্লিক করুন এবং চেক করুন৷ মাইক্রোফোন আইকনে ডান-ক্লিক করুন এবং "নিঃশব্দ" নির্বাচন করুন (সাধারণভাবে, একটি সবুজ আইকন দ্বারা চিহ্নিত সমস্ত ডিভাইস বন্ধ করুন)।

স্টেরিও মিক্সার আইকনে ডান-ক্লিক করুন এবং "সক্ষম করুন" নির্বাচন করুন। আইকনে একটি সবুজ আইকন প্রদর্শিত হবে, যা ইঙ্গিত করবে যে স্টেরিও মিক্সারটি ডিফল্ট ডিভাইসে পরিণত হয়েছে।

আপনি যদি VB-CABLE ব্যবহার করার সিদ্ধান্ত নেন, তাহলে "রেকর্ড" ট্যাবে একইভাবে এটি সক্ষম করুন।

এবং এছাড়াও - "প্লেব্যাক" ট্যাবে।

দ্বিতীয় ধাপ.যেকোনো প্লেয়ারে অডিও রেকর্ডিং চালু করুন (যদি আপনার ভিডিওর অডিও ট্র্যাক ডিক্রিপ্ট করার প্রয়োজন হয়, তাহলে আপনি ভিডিও প্লেয়ারও শুরু করতে পারেন)। একই সময়ে, Chrome ব্রাউজারে Speechpad.ru পরিষেবাটি লোড করুন এবং এতে "রেকর্ডিং সক্ষম করুন" বোতামটি ক্লিক করুন। যদি রেকর্ডিং যথেষ্ট উচ্চ মানের হয়, আপনি দেখতে পাবেন কিভাবে পরিষেবাটি আপনার চোখের সামনে বক্তৃতাকে অর্থপূর্ণ এবং মূল পাঠ্যের কাছাকাছি পরিণত করে। সত্য, বিরাম চিহ্ন ছাড়াই, যা আপনাকে নিজেকে সাজাতে হবে।

একটি অডিও প্লেয়ার হিসাবে, আমি আপনাকে AIMP ব্যবহার করার পরামর্শ দিচ্ছি, যা তৃতীয় উপ-অধ্যায়ে আরও বিশদে আলোচনা করা হবে। এখন আমি শুধুমাত্র নোট করব যে এই প্লেয়ারটি আপনাকে বক্তৃতা বিকৃতি ছাড়াই রেকর্ডিংকে ধীর করার অনুমতি দেয়, সেইসাথে কিছু অন্যান্য ত্রুটি সংশোধন করে। এটি খুব উচ্চ-মানের রেকর্ডিংয়ের স্বীকৃতিকে কিছুটা উন্নত করতে পারে। (কখনও কখনও পেশাদার সাউন্ড এডিটিং প্রোগ্রামগুলিতে খারাপ রেকর্ডিংগুলিকে প্রাক-প্রক্রিয়া করার পরামর্শ দেওয়া হয়। তবে, আমার মতে, এটি বেশিরভাগ ব্যবহারকারীর জন্য খুব শ্রমসাধ্য কাজ, যারা হাত দিয়ে খুব দ্রুত পাঠ্য টাইপ করবে। :))

2. আধা-স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি

এখানে সবকিছু সহজ. যদি রেকর্ডিং খারাপ মানের হয় এবং স্বীকৃতি "চোক" বা পরিষেবাটি অনেকগুলি ত্রুটি তৈরি করে, তাহলে শৃঙ্খলে "এমবেডিং" করে কারণটিকে সাহায্য করুন: "অডিও প্লেয়ার - ঘোষক - স্বীকৃতি সিস্টেম"৷

আপনার কাজটি হেডফোনে রেকর্ড করা বক্তৃতা শোনা এবং একই সাথে মাইক্রোফোনের মাধ্যমে ইন্টারনেট স্বীকৃতি পরিষেবাতে নির্দেশ করা। (অবশ্যই, আপনাকে পূর্ববর্তী বিভাগের মতো রেকর্ডিং ডিভাইসের তালিকায় মাইক্রোফোন থেকে স্টেরিও মিক্সার বা ভার্চুয়াল কেবলে স্যুইচ করতে হবে না)। এবং উপরে উল্লিখিত ইন্টারনেট পরিষেবাগুলির বিকল্প হিসাবে, আপনি বিনামূল্যে Yandex.Dictation এর মতো স্মার্টফোন অ্যাপ্লিকেশনগুলি ব্যবহার করতে পারেন বা iOS 8 এবং উচ্চতর আইফোনে ডিক্টেশন ফাংশন ব্যবহার করতে পারেন৷

আমি নোট করি যে আধা-স্বয়ংক্রিয় মোডে আপনার কাছে অবিলম্বে বিরাম চিহ্নগুলি নির্দেশ করার সুযোগ রয়েছে, কোন পরিষেবাগুলি এখনও স্বয়ংক্রিয় মোডে স্থাপন করতে সক্ষম নয়।

আপনি যদি প্লেয়ারে রেকর্ডিংয়ের প্লেব্যাকের সাথে সিঙ্ক্রোনাসভাবে নির্দেশ করতে পরিচালনা করেন তবে প্রাথমিক ট্রান্সক্রিপশনটি রেকর্ডিংয়ের মতোই প্রায় ততটা সময় নেবে (বানান এবং ব্যাকরণগত ত্রুটিগুলি সংশোধন করার জন্য ব্যয় করা পরবর্তী সময় গণনা করা হয় না)। কিন্তু এমনকি স্কিম অনুযায়ী কাজ করা: "একটি বাক্যাংশ শুনুন - নির্দেশ করুন - একটি বাক্যাংশ শুনুন - নির্দেশ করুন" ঐতিহ্যগত টাইপিংয়ের তুলনায় আপনাকে একটি ভাল সময় বাঁচাতে পারে।

একটি অডিও প্লেয়ার হিসাবে, আমি একই AIMP ব্যবহার করার পরামর্শ দিই। প্রথমত, আপনি সিঙ্ক্রোনাস ডিক্টেশনে আপনার সুবিধাজনক গতিতে প্লেব্যাকের গতি কমাতে এটি ব্যবহার করতে পারেন। দ্বিতীয়ত, এই প্লেয়ারটি নির্দিষ্ট সংখ্যক সেকেন্ডের জন্য রেকর্ডিং ফিরিয়ে দিতে পারে: এটি কখনও কখনও একটি দুর্বোধ্য বাক্যাংশ আরও ভালভাবে শোনার জন্য প্রয়োজনীয়।

3. একটি ভয়েস রেকর্ডারের ম্যানুয়াল ট্রান্সক্রিপশন

আপনি অনুশীলনে জানতে পারেন যে আপনি আধা-স্বয়ংক্রিয় শ্রুতিমধুর খুব দ্রুত ক্লান্ত হয়ে পড়েন। অথবা আপনি পরিষেবার সাথে অনেক বেশি ভুল করেন। অথবা, আপনার স্পিড টাইপিং দক্ষতার জন্য ধন্যবাদ, ডিকটেশন ব্যবহার করার চেয়ে কীবোর্ডে রেডিমেড সংশোধন করা পাঠ্য তৈরি করা অনেক সহজ। অথবা আপনার ভয়েস রেকর্ডার, স্টেরিও হেডসেট মাইক্রোফোন, অডিও কার্ড পরিষেবার জন্য গ্রহণযোগ্য শব্দ গুণমান প্রদান করে না। অথবা হয়তো আপনার কাজ বা হোম অফিসে জোরে জোরে নির্দেশ দেওয়ার সুযোগ নেই।

এই সমস্ত ক্ষেত্রে, আমার মালিকানাধীন ম্যানুয়াল ডিকোডিং পদ্ধতি আপনাকে সাহায্য করবে (AIMP-তে রেকর্ডিং শুনুন - Word এ টাইপ করুন)। এটির সাহায্যে, আপনি অনেক পেশাদার সাংবাদিকের চেয়ে দ্রুত একটি নোটকে টেক্সটে পরিণত করতে পারেন, যার টাইপিং গতি আপনার মতই! একই সময়ে, আপনি তাদের তুলনায় অনেক কম শক্তি এবং স্নায়ু ব্যয় করবেন। 🙂

গতানুগতিক পদ্ধতিতে অডিও রেকর্ডিংয়ের ট্রান্সক্রিপশনের সময় শক্তি এবং সময় নষ্ট করার প্রধান কারণ কী? ব্যবহারকারী অনেক অপ্রয়োজনীয় আন্দোলন করে যে কারণে.

ব্যবহারকারী ক্রমাগত ভয়েস রেকর্ডার, তারপর কম্পিউটার কীবোর্ডের দিকে তার হাত প্রসারিত করে। আমি প্লেব্যাক বন্ধ করে দিয়েছি - আমি একটি পাঠ্য সম্পাদকে যে প্যাসেজটি শুনেছিলাম তা টাইপ করেছিলাম - আমি আবার প্লেব্যাক চালু করেছি - আমি অপাঠ্য রেকর্ডিংটি পুনরায় চালু করেছি - ইত্যাদি ইত্যাদি।

একটি কম্পিউটারে একটি নিয়মিত সফ্টওয়্যার প্লেয়ার ব্যবহার করা প্রক্রিয়াটিকে কিছুটা সহজ করে তোলে: ব্যবহারকারীকে ক্রমাগত শব্দ ছোট করতে / প্রসারিত করতে হবে, প্লেয়ারটিকে থামাতে / শুরু করতে হবে এবং এমনকি প্লেয়ারের স্লাইডারের সাথে ক্রল করতে হবে একটি অযোগ্য খণ্ড খুঁজে পেতে এবং তারপরে ফিরে আসতে হবে। রেকর্ডিংয়ে শেষ শোনা জায়গায়।

এগুলি এবং সময়ের অন্যান্য ক্ষতি কমাতে, বিশেষায়িত আইটি সংস্থাগুলি সফ্টওয়্যার এবং হার্ডওয়্যার ট্রান্সক্রাইবার তৈরি করছে৷ এগুলি পেশাদারদের জন্য বেশ ব্যয়বহুল সমাধান - একই সাংবাদিক, কোর্ট স্টেনোগ্রাফার, তদন্তকারী ইত্যাদি। কিন্তু, আসলে, আমাদের উদ্দেশ্যে, শুধুমাত্র দুটি ফাংশন প্রয়োজন:

  • ভয়েস রেকর্ডিং এর প্লেব্যাককে বিকৃত না করে এবং টোন কম না করে ধীর করার ক্ষমতা (অনেক প্লেয়ার আপনাকে প্লেব্যাকের গতি কমাতে দেয় - কিন্তু, হায়, একই সময়ে, মানুষের ভয়েস একটি দানবীয় রোবোটিক ভয়েসে পরিণত হয় যা দীর্ঘ সময়ের জন্য শুনতে কঠিন);
  • রেকর্ডিং বন্ধ করার বা নির্দিষ্ট সংখ্যক সেকেন্ডের জন্য এটিকে রোল ব্যাক করার ক্ষমতা এবং টাইপ করা বন্ধ না করে এবং টেক্সট এডিটর উইন্ডোটি ছোট না করে এটিকে ফিরিয়ে দেওয়ার ক্ষমতা।

আমি আমার সময়ে কয়েক ডজন অডিও প্রোগ্রাম পরীক্ষা করেছি - এবং শুধুমাত্র দুটি সাশ্রয়ী মূল্যের অর্থপ্রদানের অ্যাপ্লিকেশন পেয়েছি যা এই প্রয়োজনীয়তাগুলি পূরণ করে৷ তাদের একটি পেয়েছিলাম. আমি আমার প্রিয় পাঠকদের জন্য একটু বেশি অনুসন্ধান করেছি 🙂 - এবং একটি দুর্দান্ত বিনামূল্যের সমাধান পেয়েছি - AIMP প্লেয়ার, যা আমি এখনও ব্যবহার করি৷

“AIMP সেটিংস প্রবেশ করার পরে, গ্লোবাল কী বিভাগটি খুঁজুন এবং স্টপ/স্টার্ট টু দ্য এস্কেপ (Esc) কী পুনরায় কনফিগার করুন। আমাকে বিশ্বাস করুন, এটি সবচেয়ে সুবিধাজনক, কারণ আপনাকে এটি সম্পর্কে ভাবতে হবে না এবং আপনার আঙুলটি দুর্ঘটনাক্রমে অন্য কীগুলিতে পড়বে না। আইটেম "একটু পিছনে সরান" এবং "একটু এগিয়ে যান" যথাক্রমে Ctrl + পিছনে/ফরোয়ার্ড কীগুলিতে সেট করুন (আপনার কীবোর্ডে চারটি তীর কী রয়েছে - তাদের মধ্যে দুটি নির্বাচন করুন)। শেষ খণ্ডটি পুনরায় শোনার জন্য বা একটু এগিয়ে যাওয়ার জন্য এই ফাংশনটি প্রয়োজন।

তারপর, EQ কল করে, আপনি বেগ এবং টেম্পো মান কমাতে পারেন - এবং পিচ মান বাড়াতে পারেন। এই ক্ষেত্রে, আপনি লক্ষ্য করবেন যে প্লেব্যাকের গতি কমে যাবে, কিন্তু ভয়েসের পিচ (যদি আপনি "পিচ" মানটি ভালভাবে বেছে নেন) পরিবর্তন হবে না। এই দুটি পরামিতি চয়ন করুন যাতে আপনার প্রায় একই সাথে টাইপ করার সময় থাকে, শুধুমাত্র মাঝে মাঝে এটি বন্ধ করে।

সবকিছু সেট আপ হয়ে গেলে, টাইপ করতে আপনার কম সময় লাগবে এবং আপনার হাত কম ক্লান্ত হবে। আপনি কীবোর্ডে টাইপ করা থেকে আপনার আঙ্গুল না তুলে ব্যবহারিকভাবে শান্তভাবে এবং স্বাচ্ছন্দ্যে অডিও রেকর্ডিং প্রতিলিপি করতে সক্ষম হবেন।”

আমি কেবল যা বলা হয়েছে তাতে যোগ করতে পারি যে রেকর্ডিংটি খুব উচ্চ মানের না হলে, আপনি AIMP-এর সাউন্ড এফেক্টস ম্যানেজারে অন্যান্য সেটিংসের সাথে পরীক্ষা করে এর প্লেব্যাক উন্নত করার চেষ্টা করতে পারেন।

এবং যে সেকেন্ডের জন্য হট কী ব্যবহার করে রেকর্ডিংয়ের মাধ্যমে পিছনে বা এগিয়ে যাওয়া আপনার পক্ষে সবচেয়ে সুবিধাজনক হবে - "সেটিংস" উইন্ডোর "প্লেয়ার" বিভাগে সেট করুন (যা হট কী টিপে কল করা যেতে পারে। "Ctrl + P")।

আমি আপনাকে রুটিন কাজগুলিতে আরও বেশি সময় বাঁচাতে চাই - এবং এটি মূল জিনিসগুলির জন্য ফলপ্রসূভাবে ব্যবহার করুন! 🙂 এবং আপনি যখন স্কাইপে কথা বলতে যাচ্ছেন তখন রেকর্ডিং ডিভাইসের তালিকায় মাইক্রোফোন চালু করতে ভুলবেন না! 😉

একটি ভয়েস রেকর্ডিং প্রতিলিপি করার 3 উপায়: বক্তৃতা স্বীকৃতি, শ্রুতিলিপি, ম্যানুয়াল মোড

আপডেট করা হয়েছে: সোমবার, জুলাই 31, 2017

পেশাদার ফটোগ্রাফির সাথে কম্পিউটারে কথা বলার আধা-চমত্কার ধারণাটির কী সম্পর্ক? প্রায় কেউই না, যদি আপনি মানুষের সমগ্র প্রযুক্তিগত পরিবেশের অবিরাম বিকাশের ধারণার অনুরাগী না হন। এক মুহুর্তের জন্য কল্পনা করুন যে আপনি ফোকাল লেন্থ পরিবর্তন করতে এবং এক্সপোজার ক্ষতিপূরণকে অর্ধেক ধাপ প্লাস করতে আপনার ক্যামেরাকে ভয়েস অর্ডার দিচ্ছেন। ক্যামেরার রিমোট কন্ট্রোল ইতিমধ্যেই প্রয়োগ করা হয়েছে, তবে সেখানে আপনাকে নীরবে বোতামগুলি টিপতে হবে এবং এখানে একটি শ্রবণশক্তি রয়েছে!

একটি কম্পিউটারের সাথে মানুষের ভয়েস কমিউনিকেশনের উদাহরণ হিসেবে কিছু চমত্কার ফিল্ম উদ্ধৃত করা একটি ঐতিহ্য হয়ে উঠেছে, অন্তত স্ট্যানলি কুব্রিক পরিচালিত "স্পেস ওডিসি 2001"। সেখানে, অনবোর্ড কম্পিউটার শুধুমাত্র মহাকাশচারীদের সাথে অর্থপূর্ণ কথোপকথনই করে না, বধির ব্যক্তির মতো ঠোঁট পড়তে পারে। অন্য কথায়, যন্ত্রটি ত্রুটি ছাড়াই মানুষের বক্তৃতা চিনতে শিখেছে। সম্ভবত কেউ ক্যামেরার রিমোট ভয়েস কন্ট্রোলকে অনাবশ্যক মনে করবে, তবে অনেকেই এই বাক্যাংশটি পছন্দ করবেন "আমাদের নাও বেবি"এবং একটি পাম গাছের পটভূমিতে পুরো পরিবারের একটি ছবি প্রস্তুত।

ঠিক আছে, এখানে আমি ঐতিহ্যের প্রতি শ্রদ্ধা নিবেদন করেছি, একটু ফ্যান্টাসাইজড। কিন্তু, আমার হৃদয়ের নীচ থেকে বলছি, এই নিবন্ধটি লেখা কঠিন ছিল, এবং এটি সবই Android 4 OS সহ একটি স্মার্টফোনের আকারে উপহার দিয়ে শুরু হয়েছিল। এই HUAWEI U8815 মডেলটিতে একটি ছোট চার ইঞ্চি টাচ স্ক্রিন এবং একটি অন-স্ক্রিন কীবোর্ড রয়েছে। এটিতে টাইপ করা কিছুটা অস্বাভাবিক, তবে এটি বিশেষভাবে প্রয়োজনীয় নয় বলে প্রমাণিত হয়েছে। (ছবি01)

1. Android OS-এ একটি স্মার্টফোনে ভয়েস রিকগনিশন

একটি নতুন খেলনা চেষ্টা করার সময়, আমি অনুসন্ধান বারে একটি মাইক্রোফোন গ্রাফিক লক্ষ্য করেছি৷ গুগলএবং নোটে কীবোর্ডে। পূর্বে, আমি এই চিহ্নটি কী বোঝায় তাতে আগ্রহী ছিলাম না। আমি কথোপকথন ছিল স্কাইপএবং কীবোর্ডে অক্ষর টাইপ করুন। বেশিরভাগ ইন্টারনেট ব্যবহারকারী এটিই করে। কিন্তু তারা পরে আমাকে ব্যাখ্যা করেছে, একটি সার্চ ইঞ্জিনে গুগলরাশিয়ান ভাষায় একটি ভয়েস অনুসন্ধান যোগ করা হয়েছিল এবং প্রোগ্রামগুলি উপস্থিত হয়েছিল যা আপনাকে ব্রাউজার ব্যবহার করার সময় সংক্ষিপ্ত বার্তাগুলি নির্দেশ করতে দেয় ক্রোম.

আমি তিনটি শব্দের একটি বাক্যাংশ বলেছিলাম, প্রোগ্রামটি তাদের চিহ্নিত করেছে এবং একটি নীল পটভূমি সহ একটি ঘরে তাদের দেখিয়েছে। অবাক হওয়ার কিছু ছিল, কারণ সব শব্দের বানান ঠিক ছিল। আপনি এই কক্ষে ক্লিক করলে, বাক্যাংশটি অ্যান্ড্রয়েড নোটপ্যাডের পাঠ্য ক্ষেত্রে প্রদর্শিত হবে। তাই তিনি কয়েকটি বাক্যাংশ বললেন এবং এসএমএসের মাধ্যমে সহকারীকে একটি বার্তা পাঠালেন।


2. ভয়েস রিকগনিশন প্রোগ্রামের সংক্ষিপ্ত ইতিহাস।

এটি আমার জন্য একটি আবিষ্কার ছিল না যে ভয়েস নিয়ন্ত্রণের ক্ষেত্রে আধুনিক অর্জনগুলি আপনাকে গৃহস্থালীর যন্ত্রপাতি, একটি গাড়ি, একটি রোবটকে কমান্ড দেওয়ার অনুমতি দেয়। Windows, OS/2, এবং Mac OS-এর অতীত সংস্করণে কমান্ড মোড চালু করা হয়েছিল। আমি টকার প্রোগ্রাম দেখেছি, কিন্তু তাদের কি লাভ? সম্ভবত এটি আমার বিশেষত্ব যে কিবোর্ডে টাইপ করার চেয়ে কথা বলা আমার পক্ষে সহজ এবং সেল ফোনে আমি কিছুতেই টাইপ করতে পারি না। আপনাকে একটি সাধারণ কীবোর্ড দিয়ে একটি ল্যাপটপে পরিচিতি রেকর্ড করতে হবে এবং USB তারের মাধ্যমে স্থানান্তর করতে হবে৷ কিন্তু শুধু মাইক্রোফোনে কথা বলার জন্য এবং কম্পিউটার নিজেই ত্রুটি ছাড়াই পাঠ্য টাইপ করেছে - এটি আমার জন্য একটি স্বপ্ন ছিল। আশাহীনতার পরিবেশ ফোরামে আলোচনার দ্বারা সমর্থিত হয়েছিল। সর্বত্র তাদের একটি দুঃখজনক চিন্তা ছিল:

“তবে, বাস্তবে, এখন অবধি, বাস্তব বক্তৃতা স্বীকৃতির জন্য প্রোগ্রামগুলি (এবং এমনকি রাশিয়ান ভাষায়) কার্যত বিদ্যমান নেই এবং সেগুলি অবশ্যই শীঘ্রই তৈরি করা হবে না। তদুপরি, এমনকি স্বীকৃতির বিপরীত কাজ - বক্তৃতা সংশ্লেষণ, যা মনে হবে, স্বীকৃতির চেয়ে অনেক সহজ, পুরোপুরি সমাধান করা হয়নি। (কম্পিউটারপ্রেস №12, 2004)

"আজ পর্যন্ত কোন সাধারণ বক্তৃতা শনাক্তকরণ প্রোগ্রাম নেই (শুধু রাশিয়ান নয়), যেহেতু কাজটি কম্পিউটারের জন্য বেশ কঠিন। এবং সবচেয়ে খারাপ বিষয় হল যে একজন ব্যক্তির দ্বারা শব্দ স্বীকৃতির প্রক্রিয়াটি উপলব্ধি করা হয়নি, তাই স্বীকৃতি প্রোগ্রামগুলি তৈরি করার সময় তৈরি করার কিছু নেই। (ফোরামে আরেকটি আলোচনা)।

একই সময়ে, ইংরেজি-ভাষার পাঠ্য ইনপুট প্রোগ্রামগুলির পর্যালোচনাগুলি স্পষ্ট সাফল্যের ইঙ্গিত দেয়। উদাহরণ স্বরূপ, IBM ViaVoice 98 এক্সিকিউটিভ সংস্করণ 64,000 শব্দের একটি মৌলিক অভিধান এবং একই সংখ্যক নিজস্ব শব্দ যোগ করার ক্ষমতা ছিল। প্রোগ্রামটি প্রশিক্ষণ ছাড়াই শব্দ স্বীকৃতির শতাংশ ছিল প্রায় 80%, এবং একটি নির্দিষ্ট ব্যবহারকারীর সাথে পরবর্তী কাজের সাথে, এটি 95% এ পৌঁছেছে।

রাশিয়ান ভাষাকে স্বীকৃতি দেওয়ার জন্য প্রোগ্রামগুলির মধ্যে, এটি "গোরিনিচ" লক্ষ্য করার মতো - ইংরেজি ভাষার ড্রাগন ডিক্টেট 2.5 এর একটি সংযোজন। অনুসন্ধান সম্পর্কে, এবং তারপর "পাঁচটি গোরিনিচের সাথে যুদ্ধ" আমি পর্যালোচনার দ্বিতীয় অংশে বলব। আমি প্রথম "ইংলিশ ড্রাগন" খুঁজে পেয়েছি।

3. ক্রমাগত বক্তৃতা স্বীকৃতির জন্য প্রোগ্রাম "ড্রাগন প্রাকৃতিকভাবে কথা বলা"

কোম্পানির প্রোগ্রামের আধুনিক সংস্করণ নুয়েন্সমিনস্ক ইনস্টিটিউট অফ ফরেন ল্যাঙ্গুয়েজ থেকে আমার পুরানো বন্ধুর সাথে দেখা গেল। তিনি এটি একটি বিদেশ ভ্রমণ থেকে এনেছিলেন, এবং তিনি একটি "কম্পিউটার সচিব" হতে পারে ভেবে এটি কিনেছিলেন। কিন্তু কিছু কাজ করেনি, এবং প্রোগ্রামটি ল্যাপটপে প্রায় ভুলে গেছে। কোন বোধগম্য অভিজ্ঞতা না থাকার কারণে, আমাকে আমার বন্ধুর কাছে যেতে হয়েছিল। আমি যে সিদ্ধান্তে এসেছি তা সঠিকভাবে বোঝার জন্য এই সমস্ত দীর্ঘ ভূমিকা প্রয়োজন।

আমার প্রথম ড্রাগনের পুরো নাম ছিল: . প্রোগ্রামটি ইংরেজিতে এবং এর মধ্যে সবকিছু পরিষ্কার এমনকি একটি ম্যানুয়াল ছাড়াই। প্রথম ধাপ হল একটি নির্দিষ্ট ব্যবহারকারীর প্রোফাইল তৈরি করা যাতে তার কর্মক্ষমতার শব্দের শব্দের বৈশিষ্ট্য নির্ধারণ করা যায়। যেটা করেছিলাম- বক্তার বয়স, দেশ, উচ্চারণের বিশেষত্ব গুরুত্বপূর্ণ। আমার পছন্দ হল: বয়স 22-54, ইংরেজি ইউকে, প্রমিত উচ্চারণ। এরপরে কয়েকটি উইন্ডো আসে যেখানে আপনি আপনার মাইক্রোফোন সেট আপ করেন। (চিত্র04)

গুরুতর বক্তৃতা স্বীকৃতি প্রোগ্রামের পরবর্তী পর্যায়ে একটি নির্দিষ্ট ব্যক্তির নির্দিষ্ট উচ্চারণের জন্য প্রশিক্ষণ। পাঠ্যের প্রকৃতি বেছে নেওয়ার জন্য আপনাকে আমন্ত্রণ জানানো হয়েছে: আমার পছন্দ হল ডিক্টেশনের একটি সংক্ষিপ্ত নির্দেশ, তবে আপনি একটি হাস্যকর গল্পের "অর্ডার" করতে পারেন।

প্রোগ্রামের সাথে কাজ করার এই পর্যায়ের সারমর্মটি অত্যন্ত সহজ - পাঠ্যটি উইন্ডোতে প্রদর্শিত হয়, এটির উপরে একটি হলুদ তীর রয়েছে। সঠিক উচ্চারণের সাথে, তীরটি বাক্যাংশের মধ্য দিয়ে চলে এবং নীচে একটি প্রশিক্ষণ অগ্রগতি বার রয়েছে। ইংরেজি কথোপকথন আমার দ্বারা বেশ ভুলে গিয়েছিল, তাই আমি অসুবিধার সাথে সরে এসেছি। সময়ও সীমিত ছিল - সর্বোপরি, কম্পিউটারটি আমার ছিল না এবং আমাকে প্রশিক্ষণে বাধা দিতে হয়েছিল। কিন্তু এক বন্ধু বলেছে যে সে আধা ঘণ্টারও কম সময়ের মধ্যে পরীক্ষা দিয়েছে। (চিত্র05)

প্রোগ্রামটিকে আমার উচ্চারণে মানিয়ে নিতে অস্বীকার করে, আমি মূল উইন্ডোতে গিয়ে অন্তর্নির্মিত পাঠ্য সম্পাদক চালু করেছি। তিনি কম্পিউটারে পাওয়া কিছু পাঠ্য থেকে পৃথক শব্দ বলেছেন। যে শব্দগুলি তিনি সঠিকভাবে বলেছেন, প্রোগ্রামটি মুদ্রিত হয়েছে, যেগুলি তিনি খারাপভাবে বলেছেন, "ইংরেজি" কিছু দিয়ে প্রতিস্থাপিত হয়েছে। ইংরেজিতে "ইরেজ লাইন" কমান্ডটি স্পষ্টভাবে উচ্চারণ করার পরে, প্রোগ্রামটি এটি পূরণ করেছে। এর মানে হল যে আমি কমান্ডগুলি সঠিকভাবে পড়ি এবং প্রোগ্রামটি পূর্বের প্রশিক্ষণ ছাড়াই তাদের স্বীকৃতি দেয়।

তবে এই "ড্রাগন" কীভাবে রাশিয়ান ভাষায় লেখে তা আমার কাছে গুরুত্বপূর্ণ ছিল। আপনি যেমন পূর্বের বর্ণনা থেকে বুঝতে পেরেছেন, প্রোগ্রামটি প্রশিক্ষণের সময়, আপনি শুধুমাত্র ইংরেজি পাঠ্য নির্বাচন করতে পারেন, সেখানে কেবল রাশিয়ান পাঠ্য নেই। এটা স্পষ্ট যে এটি রাশিয়ান বক্তৃতা স্বীকৃতি প্রশিক্ষণ কাজ করবে না. পরবর্তী ফটোতে আপনি দেখতে পাচ্ছেন যে রাশিয়ান শব্দ "হাই" উচ্চারণ করার সময় প্রোগ্রামটি কোন বাক্যাংশটি টাইপ করেছে। (চিত্র06)

প্রথম ড্রাগনের সাথে যোগাযোগের ফলাফলটি কিছুটা হাস্যকর হয়ে উঠল। আপনি যদি অফিসিয়াল ওয়েবসাইটে লেখাটি মনোযোগ সহকারে পড়েন তবে আপনি এই সফ্টওয়্যার পণ্যটির ইংরেজি "বিশেষায়ন" দেখতে পাবেন। উপরন্তু, লোড করার সময়, আমরা প্রোগ্রাম উইন্ডোতে "ইংরেজি" পড়ি। তাহলে কেন এই সব প্রয়োজন ছিল? এটা স্পষ্ট যে ফোরাম এবং গুজব দায়ী ...

কিন্তু একটি দরকারী অভিজ্ঞতা আছে. আমার বন্ধু তার ল্যাপটপের অবস্থা দেখতে বলল। কোনোরকমে ধীরে ধীরে কাজ করতে লাগলেন। এটি আশ্চর্যজনক নয় - সিস্টেম পার্টিশনে মাত্র 5% ফাঁকা জায়গা ছিল। অপ্রয়োজনীয় প্রোগ্রামগুলি মুছে ফেলার সময়, আমি দেখেছি যে অফিসিয়াল সংস্করণটি 2.3 গিগাবাইটের বেশি গ্রহণ করেছে। আমাদের এই নম্বরটি পরে প্রয়োজন হবে। (ছবি.07)



রাশিয়ান বক্তৃতা স্বীকৃতি, এটি পরিণত, একটি তুচ্ছ কাজ ছিল না. মিনস্কে, আমি একজন বন্ধুর কাছ থেকে "গোরিনিচ" খুঁজে বের করতে পেরেছি। তিনি তার পুরানো ধ্বংসস্তূপের মধ্যে দীর্ঘ সময়ের জন্য ডিস্কটি অনুসন্ধান করেছিলেন এবং তার মতে, এটি একটি সরকারী প্রকাশনা। প্রোগ্রামটি অবিলম্বে ইনস্টল করা হয়েছে, এবং আমি খুঁজে পেয়েছি যে এর অভিধানে 5000টি রাশিয়ান শব্দ এবং 100টি কমান্ড এবং 600টি ইংরেজি শব্দ এবং 31টি কমান্ড রয়েছে।

প্রথমে আপনাকে মাইক্রোফোন সেট আপ করতে হবে, যা আমি করেছি। তারপর অভিধান খুলে শব্দটা যোগ করলাম "পরীক্ষা"কারণ এটি প্রোগ্রামের অভিধানে ছিল না। আমি একঘেয়ে কথা বলার চেষ্টা করলাম। অবশেষে, আমি Gorynych Pro 3.0 প্রোগ্রামটি খুললাম, ডিক্টেশন মোড চালু করেছি এবং "শব্দের মতো শব্দের" এই তালিকাটি পেয়েছি। (ছবি.09)

ফলাফলটি আমাকে বিস্মিত করেছিল, কারণ এটি একটি অ্যান্ড্রয়েড স্মার্টফোনের কাজ থেকে আরও খারাপের জন্য স্পষ্টভাবে আলাদা ছিল এবং আমি "এর থেকে অন্যান্য প্রোগ্রামগুলি চেষ্টা করার সিদ্ধান্ত নিয়েছি" গুগল ক্রোম ওয়েব স্টোর". এবং তিনি "গোরিনিচ সাপ" এর সাথে মোকাবিলা বন্ধ করে দিয়েছিলেন। আমি এই চিন্তা স্থগিতমূল রাশিয়ান চেতনায় কর্ম

5. Google এর ভয়েস ক্ষমতা

OS Windows সহ একটি নিয়মিত কম্পিউটারে ভয়েসের সাথে কাজ করতে, আপনাকে একটি ব্রাউজার ইনস্টল করতে হবে গুগল ক্রম. আপনি যদি এটিতে ইন্টারনেটে কাজ করেন তবে নীচে ডানদিকে আপনি সফ্টওয়্যার স্টোরের লিঙ্কটিতে ক্লিক করতে পারেন। সেখানে, বিনামূল্যে, আমি ভয়েস টেক্সট ইনপুটের জন্য দুটি প্রোগ্রাম এবং দুটি এক্সটেনশন পেয়েছি। কর্মসূচিগুলো বলা হয় "ভয়েস নোটবুক"এবং "ভয়সনোট - ভয়েস টু টেক্সট". ইনস্টলেশনের পরে, তারা ট্যাবে পাওয়া যাবে "অ্যাপ্লিকেশন"আপনার ব্রাউজার "ক্রোমিয়াম". (ছবি. 10)

এক্সটেনশন বলা হয় "গুগল ভয়েস সার্চ হটওয়ার্ড (বিটা) 0.1.0.5"এবং "ভয়েস ইনপুট পাঠ্য - Speechpad.ru 5.4". ইনস্টলেশনের পরে, সেগুলি ট্যাবে বন্ধ বা মুছে ফেলা যেতে পারে "এক্সটেনশন".(ছবি. 11)

ভয়েস নোট. Chrome ব্রাউজারে অ্যাপ্লিকেশন ট্যাবে, প্রোগ্রাম আইকনে ডাবল-ক্লিক করুন। নিচের ছবির মত একটি ডায়ালগ বক্স খুলবে। মাইক্রোফোন আইকনে ক্লিক করে, আপনি মাইক্রোফোনে ছোট বাক্যাংশ বলবেন। প্রোগ্রামটি আপনার শব্দগুলি স্পিচ রিকগনিশন সার্ভারে পাঠায় এবং উইন্ডোতে পাঠ্য টাইপ করে। চিত্রে দেখানো সমস্ত শব্দ এবং বাক্যাংশ প্রথম চেষ্টায় টাইপ করা হয়েছিল। স্পষ্টতই, এই পদ্ধতিটি শুধুমাত্র একটি সক্রিয় ইন্টারনেট সংযোগের সাথে কাজ করে। (ছবি. 12)

ভয়েস নোটপ্যাড. আপনি যদি অ্যাপ্লিকেশন ট্যাবে প্রোগ্রামটি চালান তবে ইন্টারনেট পৃষ্ঠার একটি নতুন ট্যাব খুলবে Speechpad.ru. এই পরিষেবাটি কীভাবে ব্যবহার করবেন তার একটি বিস্তারিত নির্দেশনা এবং একটি কম্প্যাক্ট ফর্ম রয়েছে৷ পরেরটি নীচের চিত্রে দেখানো হয়েছে। (ছবি.13)

ভয়েস ইনপুটপাঠ্য আপনাকে আপনার ভয়েস দিয়ে ইন্টারনেট পৃষ্ঠাগুলির পাঠ্য ক্ষেত্রগুলি পূরণ করতে দেয়। উদাহরণস্বরূপ, আমি আমার পৃষ্ঠায় গিয়েছিলাম Google+. নতুন বার্তা ইনপুট ক্ষেত্রে, ডান-ক্লিক করুন এবং নির্বাচন করুন "স্পিচপ্যাড". গোলাপী রঙের ইনপুট বক্স বলে যে আপনি আপনার পাঠ্য লিখতে পারেন। (ছবি.14)

Google ভয়েস অনুসন্ধানআপনাকে ভয়েস দ্বারা অনুসন্ধান করতে দেয়। আপনি যখন এই এক্সটেনশনটি ইনস্টল এবং সক্রিয় করেন, অনুসন্ধান বারে একটি মাইক্রোফোন প্রতীক উপস্থিত হয়৷ আপনি এটি চাপলে, একটি বড় লাল বৃত্তে একটি প্রতীক প্রদর্শিত হবে। শুধু অনুসন্ধান বাক্যাংশটি বলুন এবং এটি অনুসন্ধান ফলাফলে প্রদর্শিত হবে। (ছবি.15)

গুরুত্বপূর্ণ নোট: Chrome এক্সটেনশনের সাথে মাইক্রোফোন কাজ করার জন্য, আপনাকে ব্রাউজার সেটিংসে মাইক্রোফোনে অ্যাক্সেসের অনুমতি দিতে হবে। নিরাপত্তার কারণে এটি ডিফল্টরূপে নিষ্ক্রিয় করা হয়। চলে যাও সেটিংস→ব্যক্তিগত ডেটা→কন্টেন্ট সেটিংস. (তালিকার শেষে সমস্ত সেটিংস অ্যাক্সেস করতে, ক্লিক করুন উন্নত সেটিংস দেখান). একটি ডায়ালগ বক্স খুলবে পৃষ্ঠা বিষয়বস্তু সেটিংস. তালিকা থেকে একটি আইটেম নির্বাচন করুন মাল্টিমিডিয়া→মাইক্রোফোন.

6. রাশিয়ান বক্তৃতা স্বীকৃতি প্রোগ্রামের সাথে কাজের ফলাফল

ভয়েস দ্বারা টেক্সট ইনপুট প্রোগ্রাম ব্যবহার করার সামান্য অভিজ্ঞতা একটি ইন্টারনেট কোম্পানির সার্ভারে এই বৈশিষ্ট্যটির একটি চমৎকার বাস্তবায়ন দেখিয়েছে গুগল. কোন পূর্ব প্রশিক্ষণ ছাড়া, শব্দ সঠিকভাবে স্বীকৃত হয়. এটি ইঙ্গিত দেয় যে রাশিয়ান বক্তৃতা স্বীকৃতির সমস্যাটি সমাধান করা হয়েছে।

এখন আমরা বলতে পারি উন্নয়নের ফল গুগলঅন্যান্য নির্মাতাদের পণ্য মূল্যায়নের জন্য একটি নতুন মানদণ্ড হবে। আমি চাই যে স্বীকৃতি সিস্টেমটি কোম্পানির সার্ভারের সাথে যোগাযোগ না করে অফলাইনে কাজ করুক - এটি আরও সুবিধাজনক এবং দ্রুততর। তবে রাশিয়ান বক্তৃতার একটি অবিচ্ছিন্ন প্রবাহের সাথে কাজ করার জন্য একটি স্বাধীন প্রোগ্রাম কখন প্রকাশিত হবে তা অজানা। এটা মূল্য, তবে, এই "সৃষ্টি" একটি বাস্তব যুগান্তকারী হবে প্রশিক্ষণের সুযোগ সঙ্গে অনুমান করা.

রাশিয়ান বিকাশকারীদের প্রোগ্রাম "গোরিনিচ", "ডিক্টোগ্রাফ"এবং "যুদ্ধ"আমি এই পর্যালোচনা দ্বিতীয় অংশে বিস্তারিত যেতে হবে. এই নিবন্ধটি খুব ধীরে ধীরে লেখা হয়েছিল এই কারণে যে মূল ডিস্কগুলির সন্ধান করা এখন কঠিন। এই মুহুর্তে, আমার কাছে ইতিমধ্যেই রাশিয়ান ভয়েস-টু-টেক্সট রিকগনিশন সফ্টওয়্যারের সমস্ত সংস্করণ রয়েছে, কমব্যাট 2.52 বাদে। আমার কোন বন্ধু বা সহকর্মীর এই প্রোগ্রামটি নেই, এবং আমি নিজে ফোরামে শুধুমাত্র কয়েকটি প্রশংসামূলক পর্যালোচনা করেছি। সত্য, এমন একটি অদ্ভুত বিকল্প ছিল - এসএমএসের মাধ্যমে "কমব্যাট" ডাউনলোড করুন, তবে আমি এটি পছন্দ করি না। (ছবি16)


একটি ছোট ভিডিও ক্লিপ আপনাকে দেখাবে কিভাবে Android OS সহ স্মার্টফোনে স্পিচ রিকগনিশন কাজ করে। ভয়েস ডায়ালিংয়ের একটি বৈশিষ্ট্য হল Google সার্ভারের সাথে সংযোগ করার প্রয়োজন। সুতরাং, ইন্টারনেট আপনার জন্য কাজ করা উচিত

) হোম অ্যাপ্লায়েন্স নিয়ন্ত্রণের একটি বাস্তব হ্যালো ওয়ার্ল্ড উদাহরণে।
কেন হোম অ্যাপ্লায়েন্স? হ্যাঁ, কারণ এই ধরনের উদাহরণের জন্য ধন্যবাদ, কেউ এটির প্রশংসা করতে পারে গতি এবং নির্ভুলতা, যা ব্যবহার করে অর্জন করা যেতে পারে সম্পূর্ণ স্থানীয়টাইপ সার্ভার ছাড়া বক্তৃতা স্বীকৃতি গুগল এএসআরবা ইয়ানডেক্স স্পিচকিট.
আমি নিবন্ধটিতে প্রোগ্রামের সমস্ত উত্স কোড এবং অ্যান্ড্রয়েডের জন্য সমাবেশ নিজেই সংযুক্ত করি।

হঠাৎ কেন?

সম্প্রতি হোঁচট খেয়ে, আমি লেখককে জিজ্ঞাসা করলাম কেন তিনি তার প্রোগ্রামের জন্য সার্ভার-সাইড স্পিচ রিকগনিশন ব্যবহার করতে চান (আমার মতে, এটি অপ্রয়োজনীয় ছিল এবং কিছু সমস্যার দিকে পরিচালিত করেছিল)। যার জন্য আমি একটি পাল্টা প্রশ্ন পেয়েছি যে আমি এমন প্রকল্পগুলির জন্য বিকল্প পদ্ধতির ব্যবহার সম্পর্কে আরও বিশদভাবে বর্ণনা করতে পারি কিনা যেখানে কিছু চিনতে হবে না এবং অভিধানে শব্দের একটি সীমাবদ্ধ সেট রয়েছে। তদুপরি, ব্যবহারিক প্রয়োগের উদাহরণ সহ ...

কেন আমাদের ইয়ানডেক্স এবং গুগল ছাড়াও অন্য কিছু দরকার?

সেই খুব "ব্যবহারিক প্রয়োগ" হিসাবে, আমি বিষয়টি বেছে নিয়েছি স্মার্ট হোম ভয়েস নিয়ন্ত্রণ.
কেন এমন উদাহরণ? কারণ এটিতে আপনি ক্লাউড সমাধান ব্যবহার করে স্বীকৃতির উপর সম্পূর্ণরূপে স্থানীয় বক্তৃতা স্বীকৃতির সেই কয়েকটি সুবিধা দেখতে পাবেন। যথা:
  • দ্রুততা- আমরা সার্ভারের উপর নির্ভর করি না এবং তাই তাদের প্রাপ্যতা, ব্যান্ডউইথ ইত্যাদির উপর নির্ভর করি না। কারণ
  • সঠিকতা- আমাদের ইঞ্জিন শুধুমাত্র সেই অভিধানের সাথে কাজ করে যা আমাদের অ্যাপ্লিকেশন আগ্রহী, যার ফলে স্বীকৃতির গুণমান বৃদ্ধি পায়
  • দাম- আমাদের সার্ভারে প্রতিটি অনুরোধের জন্য অর্থ প্রদান করতে হবে না
  • ভয়েস অ্যাক্টিভেশন- প্রথম পয়েন্টগুলির একটি অতিরিক্ত বোনাস হিসাবে - আমরা আমাদের ট্র্যাফিক নষ্ট না করে এবং সার্ভার লোড না করে ক্রমাগত "বাতাস শুনতে" পারি

বিঃদ্রঃ

আমি অবিলম্বে একটি রিজার্ভেশন করব যে এই সুবিধাগুলিকে সুবিধা হিসাবে বিবেচনা করা যেতে পারে শুধুমাত্র একটি নির্দিষ্ট শ্রেণীর প্রকল্পের জন্য, আমরা কোথায় আমরা নিশ্চিত জানি, কোন অভিধান এবং কোন ব্যাকরণ ব্যবহারকারী কাজ করবে। অর্থাৎ, যখন আমাদের নির্বিচারে পাঠ্য চিনতে হবে না (উদাহরণস্বরূপ, একটি এসএমএস বার্তা, বা একটি অনুসন্ধান ক্যোয়ারী)। অন্যথায়, ক্লাউড স্বীকৃতি অপরিহার্য।

তাই অ্যান্ড্রয়েড ইন্টারনেট ছাড়াই স্পিচ চিনতে পারে!
হ্যাঁ, হ্যাঁ... শুধুমাত্র জেলিবিনে। এবং শুধুমাত্র আধা মিটার থেকে, আর না। এবং এই স্বীকৃতিটি একই নির্দেশনা, শুধুমাত্র একটি অনেক ছোট মডেল ব্যবহার করে। তাই আমরা এটি পরিচালনা করতে পারি না এবং এটি কনফিগার করতে পারি না। এবং পরের বার সে আমাদের কাছে কী ফিরে আসবে তা অজানা। যদিও এসএমএস-এর জন্য ঠিক আছে!

আমরা কি করি?

আমরা হোম অ্যাপ্লায়েন্সের জন্য একটি ভয়েস রিমোট কন্ট্রোল প্রয়োগ করব যা কয়েক মিটার থেকে এমনকি খুব সস্তা অ্যান্ড্রয়েড স্মার্টফোন, ট্যাবলেট এবং ঘড়িতে সস্তা ব্রেক জাঙ্কেও সঠিকভাবে এবং দ্রুত কাজ করবে।
যুক্তি সহজ, কিন্তু খুব বাস্তব হবে. আমরা মাইক্রোফোন সক্রিয় করি এবং এক বা একাধিক ডিভাইসের নাম বলি। অ্যাপ্লিকেশনটি তাদের চিনতে পারে এবং বর্তমান অবস্থার উপর নির্ভর করে তাদের চালু বা বন্ধ করে। হয় সে তাদের কাছ থেকে একটি রাষ্ট্র গ্রহণ করে এবং এটি একটি মনোরম মহিলা কণ্ঠে উচ্চারণ করে। উদাহরণস্বরূপ, ঘরে বর্তমান তাপমাত্রা।

ব্যবহারিক অ্যাপ্লিকেশন প্রচুর

সকালে, তাদের চোখ না খুলে, তারা বিছানার টেবিলে স্মার্টফোনের স্ক্রীনটি থাপ্পড় দিয়ে বলেছিল "গুড মর্নিং!" - স্ক্রিপ্ট শুরু হয়, কফি মেকার চালু হয় এবং বাজতে থাকে, মনোরম সঙ্গীত শোনা যায়, পর্দাগুলি সরে যায়।
দেয়ালে প্রতিটি ঘরে একটি সস্তা (2 হাজার, আর নয়) স্মার্টফোন ঝুলিয়ে রাখুন। আমরা কাজের পরে বাড়ি যাই এবং শূন্যে আদেশ করি “স্মার্ট হোম! আলো, টিভি! - এরপর কি হয়, আমার মনে হয়, বলার দরকার নেই।

ট্রান্সক্রিপশন



ব্যাকরণ কি বর্ণনা করে ব্যবহারকারী কি বলতে পারেন. পকেটসফিক্স জানার জন্য কিভাবেতিনি এটি উচ্চারণ করবেন, ব্যাকরণ থেকে প্রতিটি শব্দের জন্য সংশ্লিষ্ট ভাষার মডেলে এটি কেমন শোনাচ্ছে তা লিখতে হবে। এটাই প্রতিলিপিপ্রত্যেক শব্দ. এটা কে বলে অভিধান.

ট্রান্সক্রিপশন একটি বিশেষ সিনট্যাক্স ব্যবহার করে বর্ণনা করা হয়। উদাহরণ স্বরূপ:
smart uu m n ay j house d oo m

নীতিগতভাবে, কিছুই জটিল নয়। ট্রান্সক্রিপশনে ডবল স্বরবর্ণ চাপ বোঝায়। একটি দ্বিগুণ ব্যঞ্জনবর্ণ একটি নরম ব্যঞ্জনবর্ণ যার পরে একটি স্বরবর্ণ থাকে। রাশিয়ান ভাষার সমস্ত শব্দের জন্য সমস্ত সম্ভাব্য সংমিশ্রণ।

এটা স্পষ্ট যে আমরা আমাদের অ্যাপ্লিকেশনে সমস্ত ট্রান্সক্রিপশন আগে থেকে বর্ণনা করতে পারি না, কারণ ব্যবহারকারী তাদের ডিভাইসে যে নামগুলি দেবে তা আমরা আগে থেকে জানি না৷ অতএব, আমরা রাশিয়ান ধ্বনিতত্ত্বের কিছু নিয়ম অনুসারে উড়তে গিয়ে এই জাতীয় প্রতিলিপি তৈরি করব। এটি করার জন্য, আপনি এমন একটি ফোনম্যাপার ক্লাস বাস্তবায়ন করতে পারেন যা ইনপুট হিসাবে একটি স্ট্রিং গ্রহণ করতে পারে এবং এটির জন্য সঠিক প্রতিলিপি তৈরি করতে পারে।

ভয়েস অ্যাক্টিভেশন

এটি একটি পূর্বনির্ধারিত বাক্যাংশ (বা বাক্যাংশ) এর প্রতিক্রিয়া জানাতে সর্বদা "বাতাস শোনার" বাচন সনাক্তকরণ ইঞ্জিনের ক্ষমতা। অন্য সব শব্দ এবং বক্তৃতা বাতিল করা হবে। এটি ব্যাকরণ বর্ণনা করা এবং শুধু মাইক্রোফোন চালু করার মত নয়। আমি এখানে এই কাজের তত্ত্ব এবং এটি কীভাবে কাজ করে তার মেকানিক্স দেব না। আমাকে শুধু বলতে দিন যে সম্প্রতি Pocketsphinx-এ কাজ করা প্রোগ্রামাররা এই ধরনের একটি ফাংশন প্রয়োগ করেছে এবং এখন এটি API-তে বাক্সের বাইরে উপলব্ধ।

একটি বিষয় অবশ্যই উল্লেখ করার মতো। অ্যাক্টিভেশন শব্দগুচ্ছের জন্য, আপনাকে শুধুমাত্র প্রতিলিপি নির্দিষ্ট করতে হবে না, উপযুক্ত নির্বাচন করতে হবে সংবেদনশীলতা থ্রেশহোল্ড মান. খুব ছোট একটি মান অনেক মিথ্যা ইতিবাচক দিকে নিয়ে যাবে (এটি তখনই যখন আপনি সক্রিয়করণ বাক্যাংশটি বলেননি, তবে সিস্টেম এটিকে স্বীকৃতি দেয়)। এবং খুব বেশি - অনাক্রম্যতা থেকে। অতএব, এই সেটিং বিশেষ গুরুত্ব. মানের আনুমানিক পরিসীমা - 1e-1 থেকে 1e-40 পর্যন্ত সক্রিয়করণ বাক্যাংশের উপর নির্ভর করে.

প্রক্সিমিটি অ্যাক্টিভেশন

এই কাজটি আমাদের প্রকল্পের জন্য নির্দিষ্ট এবং সরাসরি স্বীকৃতির সাথে সম্পর্কিত নয়। কোডটি মূল কার্যকলাপে দেখা যেতে পারে।
সে বুঝতে পারে সেন্সর ইভেন্ট লিসেনারএবং পদ্ধতির মুহুর্তে (সেন্সর মান সর্বাধিক মানের চেয়ে কম), এটি টাইমার শুরু করে, একটি নির্দিষ্ট বিলম্বের পরে সেন্সরটি এখনও অবরুদ্ধ কিনা তা পরীক্ষা করে। এটি মিথ্যা ইতিবাচক এড়াতে করা হয়।
যখন সেন্সর আবার ব্লক করা হয় না, তখন আমরা স্বীকৃতি বন্ধ করে দেই, ফলাফল পাওয়া যায় (নীচের বিবরণ দেখুন)।

আমরা স্বীকৃতি শুরু করি

Pocketsphinx কনফিগার এবং স্বীকৃতি প্রক্রিয়া চালানোর জন্য একটি সুবিধাজনক API প্রদান করে। এগুলো হলো ক্লাস SpechRecognizerএবং SpeechRecognizer সেটআপ.
স্বীকৃতির কনফিগারেশন এবং লঞ্চ কেমন দেখায় তা এখানে:

ফোনম্যাপার ফোনম্যাপার = নতুন ফোনম্যাপার(getAssets(). open("dict/ru/hotwords")); ব্যাকরণ ব্যাকরণ = নতুন ব্যাকরণ (নাম, ফোনম্যাপার); grammar.addWords(হটওয়ার্ড); DataFiles dataFiles = নতুন DataFiles(getPackageName(), "ru"); ফাইল hmmDir = নতুন ফাইল(dataFiles.getHmm()); ফাইল ডিক্ট = নতুন ফাইল (dataFiles.getDict()); ফাইল jsgf = নতুন ফাইল(dataFiles.getJsgf()); অনুলিপি সম্পদ(hmmDir); saveFile(jsgf, grammar.getJsgf()); saveFile(dict, grammar.getDict()); mRecognizer = SpeechRecognizerSetup.defaultSetup().setAcousticModel(hmmDir).setDictionary(dict) .setBoolan("-remove_noise", false).setKeywordThreshold(1e-7f) .getRecognizer); mRecognizer.addKeyphraseSearch(KWS_SEARCH, হটওয়ার্ড); mRecognizer.addGrammarSearch(COMMAND_SEARCH, jsgf);

এখানে আমরা প্রথমে সমস্ত প্রয়োজনীয় ফাইলগুলি ডিস্কে অনুলিপি করি (পকেটপশিনক্সের জন্য ডিস্কে একটি অ্যাকোস্টিক মডেল, ব্যাকরণ এবং ট্রান্সক্রিপশন অভিধান প্রয়োজন)। তারপর স্বীকৃতি ইঞ্জিন নিজেই কনফিগার করা হয়। মডেল এবং অভিধান ফাইলের পাথ নির্দিষ্ট করা আছে, সেইসাথে কিছু পরামিতি (অ্যাক্টিভেশন শব্দগুচ্ছের জন্য সংবেদনশীলতা থ্রেশহোল্ড)। এর পরে, ব্যাকরণ ফাইলের পথটি কনফিগার করা হয়েছে, সেইসাথে অ্যাক্টিভেশন বাক্যাংশটিও।

আপনি এই কোড থেকে দেখতে পাচ্ছেন, একটি ইঞ্জিন একই সাথে ব্যাকরণ এবং সক্রিয়করণ বাক্যাংশ স্বীকৃতি উভয়ের জন্য কনফিগার করা হয়েছে। কেন এটা করা হচ্ছে? যাতে আমরা দ্রুত পরিবর্তন করতে পারি যা আমাদের বর্তমানে চিনতে হবে। অ্যাক্টিভেশন শব্দগুচ্ছ শনাক্তকরণ প্রক্রিয়ার প্রবর্তনটি এভাবে দেখায়:

MRecognizer.startListening(KWS_SEARCH);
এবং এই মত - একটি প্রদত্ত ব্যাকরণ অনুযায়ী বক্তৃতা স্বীকৃতি:

MRecognizer.startListening(COMMAND_SEARCH, 3000);
দ্বিতীয় যুক্তি (ঐচ্ছিক) হল মিলিসেকেন্ডের সংখ্যা যার পরে কেউ কিছু না বললে স্বীকৃতি স্বয়ংক্রিয়ভাবে শেষ হয়ে যাবে।
আপনি দেখতে পাচ্ছেন, আপনি উভয় সমস্যা সমাধানের জন্য শুধুমাত্র একটি ইঞ্জিন ব্যবহার করতে পারেন।

কিভাবে স্বীকৃতি ফলাফল পেতে

স্বীকৃতির ফলাফল পেতে, আপনাকে অবশ্যই একটি ইভেন্ট শ্রোতা নির্দিষ্ট করতে হবে যা ইন্টারফেসটি প্রয়োগ করে স্বীকৃতি শ্রোতা.
এটির বেশ কয়েকটি পদ্ধতি রয়েছে যা পকেটফিনক্স দ্বারা বলা হয় যখন একটি ঘটনা ঘটে:
  • অন ​​বিগিনিংঅফ স্পিচ- ইঞ্জিন কিছু শব্দ শুনেছে, সম্ভবত এটি একটি বক্তৃতা (বা নাও হতে পারে)
  • onEndOfSpeech- শব্দ শেষ
  • আংশিক ফলাফলের উপর- মধ্যবর্তী স্বীকৃতি ফলাফল আছে. একটি সক্রিয়করণ বাক্যাংশের জন্য, এর অর্থ হল এটি কাজ করেছে। যুক্তি হাইপোথিসিস
  • ফলাফলের উপর- স্বীকৃতির শেষ ফলাফল। এই পদ্ধতিটি কল করার পরে বলা হবে থামাস্পিচ রিকগনিজার. যুক্তি হাইপোথিসিসস্বীকৃতি তথ্য রয়েছে (স্ট্রিং এবং স্কোর)

onPartialResult এবং onResult পদ্ধতিগুলিকে এক বা অন্যভাবে প্রয়োগ করে, আপনি স্বীকৃতির যুক্তি পরিবর্তন করতে পারেন এবং চূড়ান্ত ফলাফল পেতে পারেন। আমাদের অ্যাপ্লিকেশনের জন্য এটি কীভাবে করা হয়েছে তা এখানে:

@Override সর্বজনীন শূন্যতা onEndOfSpeech() ( Log.d(TAG, "onEndOfSpeech"); যদি (mRecognizer.getSearchName().equals(COMMAND_SEARCH)) ( mRecognizer.stop(); ) ) @Override সর্বজনীন শূন্যতার উপর(Party) হাইপোসিস (যদি (হাইপোথিসিস == নাল) রিটার্ন; স্ট্রিং টেক্সট = hypothesis.getHypstr(); যদি (KWS_SEARCH.equals(mRecognizer.getSearchName())) ( startRecognition(); ) else ( Log.d(TAG, text); ) ) @Override public void onResult(Hypothesis hypothesis) ( mMicView.setBackgroundResource(R.drawable.background_big_mic) , "onResult " + পাঠ্য); যদি (COMMAND_SEARCH.equals(mRecognizer.getSearchName())) ( if (text != null) ( Toast.makeText(this, text, Toast.LENGTH_SHORT).show(); প্রক্রিয়া(টেক্সট ); ) mRecognizer.startListening(KWS_SEARCH); ) )

যখন আমরা onEndOfSpeech ইভেন্টটি গ্রহণ করি, এবং একই সময়ে যদি আমরা একটি আদেশ কার্যকর করার জন্য সনাক্ত করি, তাহলে আমাদের স্বীকৃতি বন্ধ করতে হবে, যার পরে অবিলম্বে onResult কল করা হবে।
onResult-এ, আপনাকে কি সবেমাত্র স্বীকৃত হয়েছে তা পরীক্ষা করতে হবে। যদি এটি একটি কমান্ড হয়, তাহলে আপনাকে এটি কার্যকর করার জন্য চালাতে হবে এবং অ্যাক্টিভেশন বাক্যাংশটি চিনতে ইঞ্জিনটি স্যুইচ করতে হবে।
onPartialResult-এ, আমরা শুধুমাত্র সক্রিয়করণ বাক্যাংশের স্বীকৃতি পেতে আগ্রহী। যদি আমরা এটি সনাক্ত করি, আমরা অবিলম্বে কমান্ড শনাক্ত করার প্রক্রিয়া শুরু করি। এটি দেখতে কেমন তা এখানে রয়েছে:

প্রাইভেট সিঙ্ক্রোনাইজ করা অকার্যকর startRecognition() ( যদি (mRecognizer == null || COMMAND_SEARCH.equals(mRecognizer.getSearchName())) রিটার্ন; mRecognizer.cancel(); নতুন ToneGenerator(AudioManager.STREAM_MUSICOLMUSIC, To. TONE_CDMA_PIP, 200); post(400, new Runnable() (@Override public void run() ( mMicView.setBackgroundResource(R.drawable.background_big_mic_green); mRecognizer.startListening(COMMAND_SEARCH, g.Listen(3000); কমান্ড"); পোস্ট(4000, mStopRecognitionCallback); ) ));)
এখানে আমরা প্রথমে একটি ছোট সংকেত বাজাই যাতে ব্যবহারকারীকে জানানো হয় যে আমরা তাকে শুনেছি এবং তার আদেশের জন্য প্রস্তুত। এই সময়ে, মাইক্রোফোন বন্ধ করা আবশ্যক। অতএব, আমরা একটি ছোট টাইমআউটের পরে স্বীকৃতি শুরু করি (সংকেতের সময়কালের চেয়ে কিছুটা দীর্ঘ, যাতে এটির প্রতিধ্বনি শুনতে না পায়)। এটি এমন একটি থ্রেডও শুরু করে যা ব্যবহারকারীর খুব বেশিক্ষণ কথা বললে স্বীকৃতি বন্ধ করতে বাধ্য করবে। এই ক্ষেত্রে এটি 3 সেকেন্ড।

কিভাবে একটি স্বীকৃত স্ট্রিংকে কমান্ডে পরিণত করবেন

ওয়েল, সবকিছু ইতিমধ্যে একটি নির্দিষ্ট অ্যাপ্লিকেশন নির্দিষ্ট. নগ্ন উদাহরণের ক্ষেত্রে, আমরা কেবল লাইন থেকে ডিভাইসের নামগুলি বের করি, পছন্দসই ডিভাইসটি অনুসন্ধান করি এবং স্মার্ট হোম কন্ট্রোলারের কাছে একটি HTTP অনুরোধ ব্যবহার করে এর স্থিতি পরিবর্তন করি বা এর বর্তমান অবস্থার প্রতিবেদন করি (যেমন ক্ষেত্রে একটি তাপস্থাপক)। এই যুক্তিটি কন্ট্রোলার ক্লাসে দেখা যায়।

কিভাবে বক্তৃতা সংশ্লেষিত

বক্তৃতা সংশ্লেষণ হল স্বীকৃতির বিপরীত অপারেশন। এখানে, বিপরীতে, আপনাকে পাঠ্যের একটি লাইনকে বক্তৃতায় পরিণত করতে হবে যাতে ব্যবহারকারী এটি শুনতে পারে।
থার্মোস্ট্যাটের ক্ষেত্রে, আমাদের অ্যান্ড্রয়েড ডিভাইসটিকে বর্তমান তাপমাত্রা বলতে হবে। API ব্যবহার করে TextToSpeechএটি করা বেশ সহজ (রাশিয়ান ভাষার জন্য সুন্দর মহিলা টিটিএসের জন্য গুগলকে ধন্যবাদ):

ব্যক্তিগত অকার্যকর কথা (স্ট্রিং পাঠ্য) ( সিঙ্ক্রোনাইজড (mSpeechQueue) ( ​​mRecognizer.stop(); mSpeechQueue.add(টেক্সট); হ্যাশম্যাপ params = নতুন হ্যাশম্যাপ (2); params.put(TextToSpeech.Engine.KEY_PARAM_UTTERANCE_ID, UUID.randomUUID().toString()); params.put(TextToSpeech.Engine.KEY_PARAM_STREAM, String.valueOf(AudioManager.STREAM_MUSIC)); params.put(TextToSpeech.Engine.KEY_FEATURE_NETWORK_SYNTHESIS, "সত্য"); mTextToSpeech.speak(টেক্সট, TextToSpeech.QUEUE_ADD, params); ))

আমি সম্ভবত এটা সাধারণ বলব, কিন্তু সংশ্লেষণ প্রক্রিয়ার আগে, স্বীকৃতি নিষ্ক্রিয় করা প্রয়োজন. কিছু ডিভাইসে (উদাহরণস্বরূপ, সমস্ত Samsung) একটি মাইক্রোফোন শোনা এবং একই সময়ে কিছু সংশ্লেষণ করা সাধারণত অসম্ভব।
বক্তৃতা সংশ্লেষণের সমাপ্তি (অর্থাৎ, সিনথেসাইজার দ্বারা পাঠ্য বলার প্রক্রিয়ার সমাপ্তি) শ্রোতার মধ্যে ট্র্যাক করা যেতে পারে:

প্রাইভেট ফাইনাল টেক্সটসোস্প। KWS_SEARCH) ; ) ) ) );

এটিতে, আমরা কেবল সংশ্লেষণের সারিতে অন্য কিছু আছে কিনা তা পরীক্ষা করি এবং অন্য কিছু না থাকলে অ্যাক্টিভেশন বাক্যাংশ স্বীকৃতি চালু করি।

এবং এটা সব?

হ্যাঁ! আপনি দেখতে পাচ্ছেন, পকেটসফিক্সের মতো দুর্দান্ত প্রকল্পগুলির উপস্থিতির জন্য ধন্যবাদ, ডিভাইসে সরাসরি এবং সঠিকভাবে বক্তৃতা সনাক্ত করা কঠিন নয়। এটি একটি খুব সহজ API প্রদান করে যা ভয়েস কমান্ড স্বীকৃতি সম্পর্কিত সমস্যাগুলি সমাধান করতে ব্যবহার করা যেতে পারে।

এই উদাহরণে, আমরা একটি সম্পূর্ণ সঠিক টাস্কে স্বীকৃতি স্ক্রু করেছি - স্মার্ট হোম ডিভাইসের ভয়েস নিয়ন্ত্রণ. স্থানীয় স্বীকৃতির কারণে, আমরা একটি খুব উচ্চ গতি অর্জন করেছি এবং ত্রুটিগুলি কমিয়েছি৷
এটা স্পষ্ট যে একই কোড ভয়েস সম্পর্কিত অন্যান্য কাজের জন্য ব্যবহার করা যেতে পারে। এটি একটি স্মার্ট হোম হতে হবে না. ট্যাগ যুক্ত