সুচিপত্র:
সংজ্ঞা - টোকেনাইজেশন বলতে কী বোঝায়?
টোকেনাইজেশন হ'ল শব্দ, কীওয়ার্ড, বাক্যাংশ, চিহ্ন এবং টোকেন নামক অন্যান্য উপাদানগুলির মতো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো করার কাজ। টোকেনগুলি পৃথক শব্দ, বাক্যাংশ বা সম্পূর্ণ বাক্য হতে পারে। টোকেনাইজেশন প্রক্রিয়াতে, কিছুচিহ্নচিহ্ন চিহ্নের মতো চিহ্নগুলি বাতিল করা হয়। টোকেনগুলি পার্সিং এবং পাঠ্য খনির মতো অন্য প্রক্রিয়ার ইনপুট হয়ে ওঠে।
টোকেনাইজেশন কম্পিউটার বিজ্ঞানে ব্যবহৃত হয়, যেখানে এটি লেক্সিকাল বিশ্লেষণের প্রক্রিয়ায় একটি বড় ভূমিকা পালন করে।
টেকোপিডিয়া টোকেনাইজেশন ব্যাখ্যা করে
টোকেনাইজেশন কয়েকটি পদক্ষেপ অনুসরণ করে টোকেনকে পৃথক করার জন্য বেশিরভাগ সহজ হিউরিস্টিকের উপর নির্ভর করে:
- টোকেন বা শব্দগুলি সাদা স্থান, বিরাম চিহ্ন বা লাইন ব্রেক দ্বারা পৃথক করা হয়
- প্রয়োজন অনুসারে সাদা স্থান বা বিরাম চিহ্নগুলি অন্তর্ভুক্ত থাকতে পারে বা নাও থাকতে পারে
- সংক্ষিপ্ত স্ট্রিংয়ের মধ্যে থাকা সমস্ত অক্ষর টোকেনের অংশ। টোকনগুলি সমস্ত আলফা অক্ষর, বর্ণানুক্রমিক অক্ষর বা সংখ্যাসূচক অক্ষর দ্বারা গঠিত।
টোকেনগুলি নিজেও পৃথক হতে পারে। উদাহরণস্বরূপ, বেশিরভাগ প্রোগ্রামিং ভাষায়, শ্বেত স্থান ছাড়াই গাণিতিক অপারেটরগুলির সাথে শনাক্তকারীদের একসাথে রাখা যায়। যদিও এটি মনে হয় যে এটি কোনও একক শব্দ বা টোকেন হিসাবে উপস্থিত হবে, ভাষার ব্যাকরণ আসলে গাণিতিক অপারেটরকে (একটি টোকেন) বিভাজক হিসাবে বিবেচনা করে, তাই একাধিক টোকেন একসাথে গুছিয়ে নিলেও, তারা এখনও গাণিতিকের মাধ্যমে পৃথক হতে পারে অপারেটর.
