প্রশ্ন:
পাঠ্য এবং চ্যাটবটসের সাথে বক্তৃতাটির মধ্যে পার্থক্য কী?
উত্তর:স্পিড-টু-টেক্সট প্রযুক্তি এবং চ্যাটবটগুলির মধ্যে অসংখ্য উল্লেখযোগ্য পার্থক্য হ'ল চ্যাটবোট এবং ভয়েসবট প্রকল্পগুলির দ্রুত বিবর্তনে যা যা পরীক্ষা করা হচ্ছে তারই একটি অংশ।
একটি স্পিচ টু টেক্সট প্রযুক্তি কেবলমাত্র এমনটি যা মৌখিক বক্তৃতাটিকে ডিজিটাল পৃষ্ঠায় পাঠ্যে রূপান্তর করে। এটি এর সম্পূর্ণ ফাংশন, তবে এটি ডিজাইনের পক্ষে সহজ নয়। মৌখিক বক্তৃতাকে পাঠ্যে রূপান্তর করতে, প্রযুক্তিটিকে শব্দ এবং বাক্যগুলি পৃথক ফোনমেসগুলিতে বিভক্ত করতে এবং জটিল অ্যালগরিদম অনুসারে তাদের সাথে কাজ করে পাঠ্য তৈরি করতে সঠিক হয় যা স্পিকারের বক্তব্যকে উপস্থাপন করে।
অন্যদিকে চ্যাটবটগুলি এমন প্রযুক্তি যা মানুষের সাথে যোগাযোগের লক্ষ্য অর্জন করে। চ্যাটবট দুটি ধরণের রয়েছে: পাঠ্য চ্যাটবট এবং ভয়েসবট। পাঠ্য চ্যাটবটগুলি প্রায় দীর্ঘকাল ধরে চলেছে, কারণ তাদের কাছে ভয়েসবটগুলি স্পিচ-টু-টেক্সট উপাদানটির প্রয়োজন নেই।
স্পিচ টু-টেক্সট প্রযুক্তি এবং চ্যাটবটের মধ্যে প্রধান পার্থক্য হ'ল সুযোগ। যেমনটি উল্লেখ করা হয়েছে, সমস্ত স্পিচ-টু-টেক্সট প্রযুক্তিটি হ'ল মৌখিক ভাষণটি প্রতিলিপি করা। অন্যদিকে, চ্যাটবোটটি যে কোনও আকারে তৈরি হয়েছে, তা বুঝতে হবে এবং টুরিং পরীক্ষায় উত্তীর্ণ হতে পারে এমন প্রতিক্রিয়া জানাতে হবে - কোনও প্রযুক্তি কোনও মানুষকে এই ভাবনায় বোকা বানাতে পারে কিনা তা পরীক্ষা the অন্য ব্যক্তির সাথে কথা বলা।
এই বিষয়টি মাথায় রেখে চ্যাটবটগুলি ভয়েসবটগুলির চেয়ে তৈরি করা আরও সহজ। চ্যাটবোটটি মানুষের পাঠ্যে লাগে এবং একটি পাঠ্য প্রতিক্রিয়া সরবরাহ করে। এমনকি তুলনামূলকভাবে সহজ চ্যাটবটগুলি 1980 এর দশক এবং 1990 এর দশকের শেষের দিক থেকে মানুষের জন্য আকর্ষণীয় এবং উপভোগযোগ্য ফলাফল সরবরাহ করতে সক্ষম হয়েছে।
অন্যদিকে ভয়েসবটকে মৌখিক বক্তব্য গ্রহণ করতে হবে, এটি পাঠ্যে রূপান্তর করতে হবে, নির্ভুলতার জন্য এটি পরীক্ষা করতে হবে, প্রতিক্রিয়া তৈরি করতে হবে এবং মেশিনের ভাষা থেকে শ্রুতিমধুর ভাষায় সেই প্রতিক্রিয়াটি তৈরি করতে হবে। এই বিশাল সংখ্যক মোটামুটি তাৎপর্যপূর্ণ কাজের অর্থ ভয়েসবটটি তৈরি করতে প্রচুর পরিমাণে কম্পিউটিং শক্তি এবং অনেকগুলি নকশা গ্রহণ করে design
সিরি, কর্টানা এবং অ্যালেক্সার মতো প্রকল্পগুলি ভয়েসবোট প্রযুক্তির ভ্যানগার্ডের অংশটি প্রদর্শন করে। তারা আরও ব্যাখ্যা করে যে এই প্রযুক্তি এখনও শৈশবে রয়েছে। যদিও আলেক্সা এবং অন্যান্য প্রযুক্তিগুলি মানুষের বক্তৃতায় মৌখিকভাবে প্রতিক্রিয়া জানাতে পারে, তারা সাধারণভাবে মৌখিক মানবিক বক্তৃতার সাথে আমরা যেভাবে জড়িত তা অর্থে তারা অতটা সক্ষম নয়। অন্য কথায়, এই প্রযুক্তিগুলি যে প্রতিক্রিয়া জানাতে পারে তার যথেষ্ট পরিমাণ সীমাবদ্ধতা রয়েছে। এমনকি আজকের প্রজন্মের ব্যক্তিগত সহায়কদের পাঠ্যের কাছে সত্যই বক্তৃতা তৈরির সীমাবদ্ধ ক্ষমতা রয়েছে, উদাহরণস্বরূপ, কোনও ইমেল প্রতিলিপি দেওয়ার জন্য বা কাউকে নিজের হাত ব্যবহার না করে নিবন্ধ লিখতে সহায়তা করার উদ্দেশ্যে। বাজারে নির্দিষ্ট কিছু স্পিচ টু-টেক্সট প্রোগ্রাম সিরি বা কর্টানার তুলনায় এটি আরও ভাল করে, সম্ভবত সম্পদের বন্টনের কারণে। তবে, লক্ষণগুলি রয়েছে যে ভয়েসবট অগ্রগতি শীঘ্রই শেষ হতে চলেছে - যেমন অ্যামাজনের লেক্স প্ল্যাটফর্ম যা এই ধরণের প্রযুক্তি তৈরির জন্য একটি স্টুডিও পরিবেশকে সহায়তা করে।
বিষয়টির একটি চতুর এবং শিক্ষামূলক প্রবন্ধে, টোবিয়াস গোবেল এই প্রযুক্তিগুলির মধ্যে পার্থক্য সম্পর্কে কথা বলেছেন, "প্রতিলিপি দেওয়ার" প্রক্রিয়াটির বিপরীতে, কোন বক্তৃতাকে পাঠ্য ভাষায় বোঝা যায়, বোঝার কাজটি, যা চ্যাটবটগুলি করার কথা।
গোয়েল লিখেছেন, "বক্তৃতা স্বীকৃতির প্রয়োজনীয়তা অপসারণের ফলে বিষয়গুলি আড্ডার পক্ষে সহজ করে তোলে, কার্যক্ষম বট তৈরির মূল চ্যালেঞ্জটি প্রাকৃতিক ভাষা বোঝার মধ্যে অন্তর্ভুক্ত রয়েছে, " গোয়েল লিখেছেন।
গোবেল শিল্পের বর্তমান অনেক খেলোয়াড়কে সনাক্ত করে:
বক্তৃতা স্বীকৃতির জন্য মার্কেট লিডার হলেন নুয়ানস, যিনি পিসিতে ডিক্টেশন নেওয়ার জন্য ড্রাগন ন্যাচারালিস্পেকিংয়ের মতো সুপরিচিত সিস্টেমের পিছনে রয়েছেন, যা নব্বইয়ের দশক থেকে চলে এসেছে, তবে সিরি: অ্যাপল ক্লাউডে পরিচালিত স্পিচ স্বীকৃতি / প্রতিলিপি টাস্ক ব্যবহার করে পর্দার আড়ালে ন্যুয়েন্স প্রযুক্তি। অন্যরা হ'ল LumenVox, Verbio বা ইন্টারঅ্যাকশন, তবে স্পিচ স্বীকৃতিটি এখন অ্যামাজন, গুগল, মাইক্রোসফ্ট এবং আইবিএম-এর পছন্দ অনুসারে এপিআইয়ের মাধ্যমে একটি ক্লাউড পরিষেবা হিসাবে দেওয়া হয়।
চ্যাটবটগুলি বিকাশের সাথে সাথে, ধারণা করা হয় যে তাদের বোঝাপড়া কিছু ট্র্যাজেক্টোরির উপর বাড়তে থাকবে - এবং এটি বেশিরভাগ ক্ষেত্রেও অনুমান করা হয়েছে যে আরও বট প্রযুক্তি টেক্সট ইন্টারফেস থেকে মৌখিক ইন্টারফেসে চলে যাবে, অতিরিক্ত পরিমাণে কম্পিউটিং শক্তি প্রয়োজন iring