বাড়ি শ্রুতি আমি কি মৃত মানুষ শুনি? প্রাকৃতিক ভাষা প্রযুক্তি অতীত এবং বর্তমান কণ্ঠকে জীবিত করে তোলে

আমি কি মৃত মানুষ শুনি? প্রাকৃতিক ভাষা প্রযুক্তি অতীত এবং বর্তমান কণ্ঠকে জীবিত করে তোলে

সুচিপত্র:

Anonim

আজকাল, বেশিরভাগ কম্পিউটার ভয়েসেস পাসé é আপনি যখন আপনার ফোনে "ড্রয়েড" শুনলে আপনাকে বিল পরিশোধে সহায়তা করে বা আপনি কোন বিভাগটি চান তা জিজ্ঞাসা করলে আপনি সম্ভবত সাইবার্গস এবং রোবটগুলি সম্পর্কে খুব বেশি মনোযোগ জাগবেন না। তবে আপনি যদি হঠাৎ করে কার্ট কোবাইনকে কার্ডের তথ্যের জন্য উত্সাহ দিতে শুনেন? বা জন এফ কেনেডি শীঘ্রই ভোটদানের বিস্ময়ের কথা বলছেন? অথবা এলভিস আপনার নাম এবং ঠিকানা ভেঙে যাওয়ার আগে "একটি কুন্তি, জ্বলন্ত প্রেমের একটি কুঁচি"?


এগুলি সবই হবে … কিন্ডা অদ্ভুত, তবে এর চেয়েও আকর্ষণীয় হ'ল প্রযুক্তিটি মূলত এখানে ইতিমধ্যে is মাত্র এক দশক বা তারও অনেক আগে, কম্পিউটারের এমনকি কথা বলার ক্ষমতা থেকে আমরা অবাক হয়েছি। এখন, আমরা নিখরচায় রেঞ্জিং দ্বারা কম্পিউটার মেঝে করা হতে চলেছি, কম্পিউটারটি তৈরি করা ভয়েস যা ঠিক আমাদের জানা লোকদের মতো শোনাচ্ছে।

এনএলপিতে বড় পরিবর্তন

যদি আপনি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (এনএলপি) ক্ষেত্রের দিকে মনোযোগ দিচ্ছেন তবে আপনি কিছু সাম্প্রতিক অগ্রগতি সম্পর্কে শুনে থাকতে পারেন যা আমরা আমাদের বৈশ্বিক অবস্থান ব্যবস্থা (জিপিএস) এবং স্বয়ংক্রিয় ব্যবসায়ের বিভিন্ন ধরণের ক্যানড ভার্চুয়াল সহকারী ভয়েসগুলির বাইরে চলে যাই go ফোন লাইন।


এনএলপির শুরুতে মানব বক্তব্যের সাধারণ যান্ত্রিকতা সম্পর্কে পুরোপুরি গবেষণা প্রয়োজন। গবেষক এবং ইঞ্জিনিয়ারদের পৃথক স্বরবিজ্ঞান সনাক্ত করতে হবে, বাক্য এবং বাক্য তৈরি করার জন্য এগুলি বৃহত্তর অ্যালগরিদমে ভাঁজ করতে হয়েছিল, এবং তারপরে এমন কিছু তৈরি করার জন্য একটি মেটা-স্তরে এগুলি সমস্ত পরিচালনা করার চেষ্টা করতে হয়েছিল that সময়ের সাথে সাথে, এনএলপি নেতারা এটিতে দক্ষতা অর্জন করেছিলেন এবং মানুষ কী বলে তা বোঝার জন্য উন্নত অ্যালগরিদম তৈরি করা শুরু করে। এই দু'টিকে একসাথে রেখে, সংস্থাগুলি আজকের ভার্চুয়াল সহায়ক এবং পুরোপুরি ডিজিটাল বিল-বেতন ক্লার্কদের জন্য চালকদের সাথে উপস্থিত হয়েছিল, যার পদ্ধতিগুলি - বিরক্তিকর - যখন আপনি তাদের মধ্যে যে কাজটি হয়েছে সে সম্পর্কে চিন্তা করা বন্ধ করে দেয় তখনও আশ্চর্যজনক।


এখন, কিছু সংস্থা জেনেরিক ভার্চুয়াল ভয়েস ছাড়িয়ে আরও নির্দিষ্ট সুনির্দিষ্ট ব্যক্তিগতকৃত ফলাফল একত্রিত করছে। এর জন্য কোনও নির্দিষ্ট ব্যক্তির শব্দকোষের মধ্য দিয়ে যাওয়া এবং প্রচুর পরিমাণে অনন্য ভয়েস ভিডিও সংগ্রহ করা দরকার, তারপরে এই আর্কাইভটি শব্দতত্ত্ব, জোর, ক্যাডেন্স এবং অন্যান্য সমস্ত ক্ষুদ্র সংকেতের জন্য জটিল তালগুলিতে প্রয়োগ করা হয় যা ভাষাতত্ত্ববিদরা প্রায়শই "প্রোসোডি" এর বিস্তৃত ব্যানারে গ্রুপ করেন।


যা প্রকাশ পায় তা হ'ল শ্রোতারা একটি নির্দিষ্ট ব্যক্তির দ্বারা "মালিকানাধীন" হিসাবে ভাবেন - হয় এমন কোনও ব্যক্তি যার সাথে তারা চেনেন এবং যার সাথে কথা বলেছিলেন, বা যার ভয়েস তারা সেই ব্যক্তির খ্যাতির ফলস্বরূপ স্বীকৃতি দেয়।


এলভিস থেকে মার্টিন লুথার কিং পর্যন্ত যে কারও আওয়াজ এখন এইভাবে "ক্লোন করা" যেতে পারে - তবে তাদের বক্তৃতার যথেষ্ট পূর্বনির্দেশিত রেকর্ড রয়েছে। স্বতন্ত্র ছোট শব্দগুলিতে আরও বিশদ বিশ্লেষণ এবং ম্যানিপুলেশন প্রয়োগ করে সংস্থাগুলি কারও কণ্ঠের ভার্চুয়াল কার্বন অনুলিপি তৈরি করতে সক্ষম হয় যা অনেকটা আসল জিনিসটির মতো লাগে।

ভিভো টেক্সটে আকর্ষণীয় "টেক্সট টু ভয়েস" ক্রিয়েশনস

উদাহরণস্বরূপ, ভিভো টেক্সট হ'ল একটি সংস্থা যা অডিওবুকগুলি থেকে ইন্টারেক্টিভ ভয়েস রেসপন্স (আইভিআর) পর্যন্ত সমস্ত ধরণের প্রচারের জন্য কৃত্রিম মানব কণ্ঠের ব্যবহারকে বিপ্লব করতে কাজ করে। ভিভো টেক্সট-এ, গবেষণা এবং প্রযোজনা দলগুলি এমন প্রক্রিয়াগুলিতে কাজ করছে যা তাত্ত্বিকভাবে মৃত সেলিব্রিটিদের স্বর যেমন ওল 'ব্লু আইস নিজেই প্রতিরূপ করতে পারে।


"এই জাতীয় প্রযুক্তি কীভাবে কাজ করতে পারে সে সম্পর্কে কথা বলে ভিভো টেক্সটের সিইও গের্শন সিলবার্ট বলেছেন, " ফ্র্যাঙ্ক সিনট্রা কণ্ঠস্বরকে ক্লোন করতে আমরা আসলে তার রেকর্ড করা উত্তরাধিকারের মধ্য দিয়ে যাব। "


এই মুহুর্তে, ভিভো টেক্সট যারা এখনও আমাদের সাথে রয়েছেন, যেমন এনপিআর সংবাদদাতা নীল কনান, যারা এই জাতীয় আইটি অগ্রগামী প্রকল্পের মডেল হিসাবে সাইন করেছেন তাদের কণ্ঠ সংরক্ষণাগার নিয়ে কাজ করছে। একটি প্রচারমূলক ভিডিওতে ভিভো টেক্সট কর্মীরা শ্রমসাধ্যভাবে কনন থেকে প্রদত্ত ভয়েস ইনপুট ব্যবহার করে ফোনেটিক কোড মডিউল তৈরি করছে। তারপরে তারা টেক্সট টু স্পিচ (টিটিএস) সরঞ্জামগুলির জন্য মডেলগুলি তৈরি করে যা নাটকীয়ভাবে মানবিক ও স্বতঃস্ফূর্ত ফলাফলকে সরিয়ে দেয়।


ভিভো টেক্সট-এর কৌশল এবং ব্যবসায়িক উন্নয়নের সহ-সভাপতি বেন ফিবিলেম্যানের মতে, কম্পিউটার একটি স্বতন্ত্র মানুষের কন্ঠের জন্য একটি প্রোসোডিক মডেল অনুসারে ফোনম লেভেলে (বক্তৃতার ক্ষুদ্রতম অনন্য অংশ ব্যবহার করে) কাজ করে।


ফিবিবলম্যান বলেছেন, "এটি ভয়েস কীভাবে কথা বলে, " যোগ করে "ইউনিট নির্বাচন" ব্যবহার করে কম্পিউটার একটি সংক্ষিপ্ত শব্দ একসাথে রাখার জন্য অনেকগুলি টুকরো বেছে নেয়, যেমন "শুক্রবার" শব্দটির পাঁচটি উপাদান দেওয়া হয়েছে যা বিকাশে সহায়তা করে একটি বিশেষ জোর এবং টোনাল ফলাফল।

কৃত্রিম ভয়েস ইন বিপণন

সুতরাং, বিপণনে এটি কীভাবে কাজ করে? ভিভো টেক্সটের পণ্য অডিওবুকের মতো পণ্য তৈরিতে অত্যন্ত কার্যকর হতে পারে যা লক্ষ্য শ্রোতাদের কাছে পৌঁছতে পারে। উদাহরণস্বরূপ, যদি কোনও এলভিস কণ্ঠকে বিনোদন সম্পর্কিত পণ্যগুলি বিক্রি করতে ব্যবহার করা হয় তবে আজকের জেনেরিক, ডেডপ্যান, অটোমেটেড ভয়েসগুলির সাথে তার তুলনা আরও কতটা কার্যকর হবে?


বা, রাজনীতিতে কেমন? ফিবিবলম্যান এমন সংস্থাগুলি বা অন্যান্য পক্ষের জন্য বিপণন বাড়ানোর জন্য বিভিন্ন প্রকল্পের ব্যবহারের জন্য বিভিন্ন আইডিয়া নিয়ে কাজ করছেন যা আরও কার্যকর বার্তাবাহক প্রয়োজন।


"আপনি যদি কোনও রাজনীতিবিদকে রাষ্ট্রপতি পদে পদে পদে পদে পদে পদে পদে পদে পদে পদে পদে পদার্থ গ্রহণ করতে জানেন, তবে এটির জন্য 10 মিলিয়ন দোল-রাষ্ট্র ভোটার কোনও প্রার্থীর ব্যক্তিগত কল পেতে পারে, তাদের সমর্থন দেওয়ার জন্য তাদের ধন্যবাদ জানায়, তাদের কোথায় ভোট দেওয়ার দরকার রয়েছে তা জানিয়ে, আবহাওয়া এবং সমস্ত ছাঁটাই নির্বাচনের আগের রাত, "ফিবেলম্যান বলেছিলেন।

আপনার ভয়েস বেঁচে আছে

এই প্রযুক্তির সমস্ত ক্ষেত্রে আরও একটি সুস্পষ্ট প্রয়োগ রয়েছে। ভিভো টেক্সটের মতো প্রাকৃতিক ভাষা সংস্থাগুলি একটি ব্যক্তিগত পরিষেবা তৈরি করতে পারে যা গ্রাহকের সমস্ত ভয়েস ডেটা এমন একটি পণ্যতে আপলোড করতে পারে যা সেই ব্যক্তিকে "চিরকাল কথা বলতে" দেয়।


ব্যবহারিক বাস্তবায়ন সম্ভবত আমরা কীভাবে কথ্য কণ্ঠ শুনি এবং অভ্যন্তরীণ করি সে সম্পর্কে অনেকগুলি প্রশ্ন উত্থাপন করবে। উদাহরণস্বরূপ, কারও মতো সাউন্ড স্ট্রিম শব্দটি তৈরি করতে কী লাগে? একটি নির্দিষ্ট কণ্ঠস্বরকে চিনতে আমাদের কীভাবে একজন ব্যক্তিকে জানতে হবে? এবং মজার বিষয় হল, যদি কোনও প্রাকৃতিক ভাষা পরিষেবা বাধ্যতামূলক নকলের পরিবর্তে কোনও অদ্ভুত ক্যারিকেচার তৈরি করে তবে কী হবে?


ফেবিবলম্যান বলেছেন, ফলাফলগুলি মূল্যায়ণ প্রায়শই প্রসঙ্গে বিবেচনার উপর নির্ভর করে। উদাহরণস্বরূপ, তিনি বলেছেন যে শিশুরা যখন কোনও গল্প শোনেন তখন সাধারণত কে কথা বলছেন সে সম্পর্কে প্রশ্ন জিজ্ঞাসা করে না। তারা শুধু আরও চান। তবে এছাড়াও, অনেক প্রাপ্তবয়স্করা কোনও প্যাসিভ ব্রডকাস্ট বা ফোন বার্তার মতো একটি নির্দিষ্ট দৃশ্যের প্রেক্ষিতে কাদের সাথে কথা বলছেন সে সম্পর্কে ভাবতে পারে না। এছাড়াও, ফোনের মাধ্যমে কম্পিউটারের দ্বারা বোকা বানানো আরও সহজ কারণ মাফল হওয়া শব্দ কম্পিউটারের ফলাফল এবং মানুষের ভয়েসের মধ্যে বিভ্রান্তি বা অন্যান্য তাত্পর্যকে মাস্ক করতে পারে।


"ভয়েসটির সত্যতা চ্যালেঞ্জ করা আপনার কাছে ঘটে না, " ফিবেলম্যান বলে।

2525 সালে

সংস্থাগুলি পণ্য এবং পরিষেবাগুলির বিকাশ এবং এই প্রশ্নের উত্তর দেওয়ার ক্ষেত্রে এগিয়ে যাওয়ার সাথে সাথে "জীবন্ত বক্তৃতা" প্রযুক্তিগুলি প্রযুক্তি এবং মানব মনকে রূপান্তরিত করার দিকে এগিয়ে যেতে পারে, যা ক্লাসিক্যালি কৃত্রিম বুদ্ধিমত্তা (এআই) নামে অভিহিত হয়।


কম্পিউটার যদি আমাদের মতো কথা বলতে পারে, তবে তারা অন্যান্য ব্যবহারকারীদের আমাদের মতো চিন্তা করার প্রবণতা তৈরি করতে সক্ষম হতে পারে, এককত্বের বৃহত্তর নীতিটি খাওয়ান, যেমন লেখক দ্বারা প্রচারিত ১৯৫০-এর দশকের প্রযুক্তিগত পথিকৃৎ জন ভন নিউমানের আমাদের অভিধানে সূচিত হয়েছিল red এবং রে কুর্জওয়েলের মতো চিন্তাবিদরা। কুর্জভিলের 2005 সালের বই "দ্য সিঙ্গুলারিটি ইজ নিকট" কিছুকে উত্তেজিত করেছে এবং অন্যকে ভয় দেখায়। কুর্জওয়েল এর ভবিষ্যদ্বাণী করেছিলেন যে ২০৪৫ সালের মধ্যে, "বুদ্ধি" একটি প্রপঞ্চ হিসাবে মানব মস্তিষ্ক থেকে প্রচুর নিখরচায় হয়ে উঠবে এবং প্রযুক্তিতে মাইগ্রেশন করবে, মেশিন এবং তাদের মানব মাস্টারগুলির মধ্যে রেখাটি ঝাপসা করে দেবে।


জাগার ও ইভান্সের "" ইন 2525 ইন 25 "এর গানে অমর হয়েছে (কেউ এই ছেলেদের মতো চতুর সাইফ-ফাই বাল্লড করে না) …


4545 সালে

আপনার দাঁত লাগবে না, প্রয়োজন হবে না

তোমার চোখ

আপনি চিবানোর কোনও জিনিস খুঁজে পাবেন না

কারও দিকে তাকাতে হবে না


5555 সালে

আপনার বাহুগুলি আপনার পাশের দিকে ঝুলতে থাকবে

আপনার পায়ে কিছু করার দরকার নেই

কিছু মেশিন আপনার জন্য এটি


কম্পিউটার ভয়েসেস কি এই দিকের এক ধাপ? মানব দেহের কিছু ক্রিয়াকলাপ আউটসোর্স করার নতুন উপায় হিসাবে (বা আরও সাধারণভাবে, সেগুলি অনুকরণ করার জন্য), এই ধরণের প্রযুক্তিগত অগ্রগতি হ'ল দিগন্তের অগ্রগতির মধ্যে একটি - এবং সম্ভবত অপ্রস্তুত - অগ্রণী হিসাবে আমরা একক ভবিষ্যতের দিকে নজর দিই । (উইল কম্পিউটারে "এককতা" সম্পর্কে মানুষের মন অনুকরণ করতে সক্ষম?)

আমি কি মৃত মানুষ শুনি? প্রাকৃতিক ভাষা প্রযুক্তি অতীত এবং বর্তমান কণ্ঠকে জীবিত করে তোলে