প্রশ্ন:
উত্তরাধিকার স্থানান্তরে ম্যানুয়াল ডেটা এন্ট্রি করার পরে কীভাবে মেশিন লার্নিংয়ের ডেটা স্ক্র্যাপিং সবচেয়ে শ্রম-নিবিড় বাধা হয়ে দাঁড়িয়েছে?
উত্তর:মেশিন লার্নিং (এমএল) প্রকল্প শুরু করার চেষ্টা করার সময় সংস্থাগুলি যে বাস্তব সমস্যার মুখোমুখি হতে পারে তার মধ্যে একটি প্রাথমিক প্রশিক্ষণের ডেটা সেটগুলি অর্জন করার চ্যালেঞ্জ। এর মধ্যে শ্রম-নিবিড় প্রক্রিয়া যেমন ওয়েব স্ক্র্যাপিং বা অন্যান্য ডেটা স্ক্র্যাপিং অন্তর্ভুক্ত থাকতে পারে।
ওয়েব স্ক্র্যাপিং এবং ডেটা স্ক্র্যাপিং শব্দগুলি কম্পিউটার সফ্টওয়্যার দ্বারা স্বয়ংক্রিয় ক্রিয়াকলাপকে অনেকাংশে উল্লেখ করে তবে অনেক এমএল প্রকল্পের ক্ষেত্রে এমন ঘটনা ঘটতে পারে যেখানে কম্পিউটারেরা সঠিক টার্গেট করা ডেটা সংগ্রহের জন্য পরিশীলিত না থাকে, তাই এটি করতে হবে "হাতের দ্বারা." এটিকে আপনি "হিউম্যান ওয়েব / ডেটা স্ক্র্যাপিং" বলতে পারেন এবং এটি একটি অকৃতজ্ঞ কাজ। এর মধ্যে সাধারণত প্রশিক্ষণ সেটগুলির মাধ্যমে এমএল প্রোগ্রামটি "ফিড" দেওয়ার জন্য ডেটা বা চিত্রগুলি সন্ধান করা এবং বের হওয়া জড়িত। এটি প্রায়শই সুন্দর পুনরাবৃত্তি, যা এটিকে ক্লান্তিকর, আলস্য, দাবী করা কাজ করে।
ফ্রি ডাউনলোড: মেশিন লার্নিং এবং কেন এটি গুরুত্বপূর্ণ |
এমএল প্রশিক্ষণ সেটগুলির জন্য ডেটা স্ক্র্যাপিং মেশিন লার্নিংয়ে একটি অনন্য সমস্যাযুক্ত প্রতিবন্ধকতা উপস্থাপন করে, আংশিক কারণ অন্যান্য কাজগুলির বেশিরভাগই অত্যন্ত ধারণাগত এবং পুনরাবৃত্তি নয়। মেশিন লার্নিংয়ের কার্য সম্পাদনকারী একটি নতুন অ্যাপের জন্য অনেক লোক দুর্দান্ত ধারণা নিয়ে আসতে পারেন তবে বাদাম এবং বল্টগুলি এবং ব্যবহারিক কাজটি আরও শক্ত হতে পারে। বিশেষত, প্রশিক্ষণ সেটগুলি একত্রিত করার কাজটি অর্পণ করা আসলে একটি এমএল প্রকল্পের সবচেয়ে শক্ত অংশ হতে পারে, যেমনটি মাইক জাজের "সিলিকন ভ্যালি" টিভি শোতে পুরোপুরি অন্বেষণ করা হয়েছিল। একটি মরসুমের চারটি পর্বে, একটি প্রারম্ভিক উদ্যোক্তা প্রথমে অংশীদারকে শ্রম-নিবিড় কাজ করার জন্য বোকা বানায়, তারপরে কলেজ ছাত্রদের এটি হোমওয়ার্ক অ্যাসাইনমেন্ট হিসাবে ছদ্মবেশ দিয়ে পাস করার চেষ্টা করে।
এই উদাহরণটি শিক্ষণীয় কারণ এটি ম্যানুয়াল ডেটা স্ক্র্যাপিং কতটা অপছন্দ এবং আপাতদৃষ্টিতে গুরুত্বহীন তা দেখায়। তবে এটি আরও দেখায় যে বিস্তৃত মেশিন লার্নিং পণ্যগুলির জন্য এই প্রক্রিয়াটি প্রয়োজনীয়। যদিও বেশিরভাগ লোকেরা ডেটা প্রবেশের ঘৃণা করে, প্রশিক্ষণ সেটগুলি কোনও উপায়ে একত্রিত করতে হয়। প্রক্রিয়াটির বিশেষজ্ঞরা প্রায়শই একটি ওয়েব স্ক্র্যাপিং পরিষেবা ব্যবহার করার পরামর্শ দেন - মূলত কেবল শ্রম-নিবিড় কাজটি বহিরাগত পক্ষগুলিতে আউটসোর্সিং করা, তবে এটির নিরাপত্তা রীতি এবং অন্যান্য সমস্যার কারণ হতে পারে। ম্যানুয়াল ডেটা সংগ্রহের কাজ ঘরে বসে রাখার সময়, আবারও বেশিরভাগ ক্ষেত্রে খুব ম্যানুয়াল এবং সময় গ্রহণকারী প্রক্রিয়া হয় তার জন্য একটি বিধান রাখা উচিত।
কিছু উপায়ে, মেশিন লার্নিংয়ের জন্য "হিউম্যান ডেটা স্ক্র্যাপিং" ম্যানুয়াল ডেটা এন্ট্রির মতো দেখায় যা কখনও কখনও লিগ্যাসি মাইগ্রেশনে করতে হয়েছিল। মেঘ আরও বেশি জনপ্রিয় হওয়ার সাথে সাথে সংস্থাগুলি তাদের প্রক্রিয়াগুলি এবং ওয়ার্কফ্লোগুলি মেঘের মধ্যে রাখে, কেউ কেউ দেখতে পেল যে তারা কীভাবে বিচ্ছিন্ন উত্তরাধিকার ব্যবস্থা থেকে তাদের কর্পোরেট ডেটা ক্লাউড-নেটিভ অ্যাপ্লিকেশনগুলিতে পাবেন সে সম্পর্কে ব্যবহারিক দিকগুলি নিয়ে কাজ করেন নি। ফলস্বরূপ, কিছু লোক যারা তথ্য বিজ্ঞানী বা প্রয়োজনীয় আইটি দক্ষতার সাথে সৃজনশীল মানুষ ছিলেন তারা নিজেদের অপ্রীতিকর ডেটা প্রবেশের কাজগুলি করতে দেখেন।
মেশিন লার্নিংয়ের ক্ষেত্রেও একই ঘটনা ঘটবে। আপনি কোনও ডেটা বিজ্ঞানী অভিযোগ করতে শুনতে পাচ্ছেন যে "আমি একজন সৃজনশীল ব্যক্তি" বা "আমি উন্নয়নের দিকে আছি" - তবে কাউকে নোংরা কাজটি করতে হবে।
আবার, যদি কার্যপ্রবাহের প্রতিনিধিদের ব্যবহারিক মূল্যায়নের সাথে যদি সৃজনশীল প্রবাহটি মিলে না যায়, তবে কীভাবে কার্য পরিচালনার নির্দেশনা দেওয়া হচ্ছে তাতে একটি মিল নেই। যখন কোনও সংস্থার ডেটা সেট সংগ্রহের ক্ষেত্রে ডেটা স্ক্র্যাপিংয়ের কাজ করার লোক থাকে না, তখন এটি একটি সফল প্রকল্পের জন্য প্রক্রিয়াটির চেইনের একটি মূল অংশের অভাব থাকে। কোনও সংস্থা যে কোনও সময় নতুন মেশিন লার্নিং অ্যাপ্লিকেশনগুলি বিকাশের চারদিকে ভিত্তি করে এমন একটি ধারণাকে ভাল করতে চেষ্টা করার বিষয়টি মনে রাখার মতো।