প্রশ্ন:
বড় ডেটাতে কি কখনও খুব বেশি ডেটা থাকতে পারে?
উত্তর:প্রশ্নের উত্তর হ'ল একটি দুর্দান্ত গী। বড় ডেটা প্রকল্পে একেবারে খুব বেশি ডেটা থাকতে পারে।
এটি ঘটতে পারে এমন অনেকগুলি উপায় এবং সঠিক ফলাফল পাওয়ার জন্য পেশাদারদের যে কোনও সংখ্যক উপায়ে ডেটা সীমাবদ্ধ করা এবং খাঁজ করতে হবে এমন বিভিন্ন কারণ রয়েছে। (বড় ডেটা সম্পর্কিত 10 টি বড় মিথ পড়ুন))
সাধারণভাবে, বিশেষজ্ঞরা একটি মডেলের "শব্দ" থেকে "সিগন্যাল" পার্থক্য করার বিষয়ে কথা বলেন। অন্য কথায়, বড় ডেটার সমুদ্রে প্রাসঙ্গিক অন্তর্দৃষ্টি ডেটা লক্ষ্য করা কঠিন হয়ে পড়ে। কিছু ক্ষেত্রে, আপনি খড়ের খড়ের মধ্যে সূঁচের সন্ধান করছেন।
উদাহরণস্বরূপ, ধরুন যে কোনও সংস্থা গ্রাহক বেসের একটি বিভাগে নির্দিষ্ট অন্তর্দৃষ্টি তৈরি করার জন্য এবং একটি নির্দিষ্ট সময়সীমার মধ্যে তাদের ক্রয়গুলি বড় ডেটা ব্যবহার করার চেষ্টা করছে। (পড়ুন বড় ডেটা কী করে?)
প্রচুর পরিমাণে ডেটা সম্পদ গ্রহণের ফলে এলোমেলো ডেটা গ্রহণের ফলাফল হতে পারে যা প্রাসঙ্গিক নয় বা এটি এমন একটি পক্ষপাতও তৈরি করতে পারে যা ডেটাটিকে এক দিক বা অন্য দিকে ছুঁড়ে দেয়।
এটি প্রক্রিয়াটি নাটকীয়ভাবে ধীর করে দেয়, কারণ কম্পিউটিং সিস্টেমগুলিকে বৃহত্তর এবং বৃহত্তর ডেটা সেটগুলির সাথে লড়াই করতে হয়।
বিভিন্ন ধরণের প্রকল্পে, ডেটা ইঞ্জিনিয়ারদের পক্ষে সীমাবদ্ধ এবং নির্দিষ্ট ডেটা সেটগুলিতে ডেটা সংশোধন করা অত্যন্ত গুরুত্বপূর্ণ - উপরের ক্ষেত্রে, কেবলমাত্র সেই বিভাগের গ্রাহকদের অধ্যয়ন করা হবে, কেবল সেই সময়ের জন্য ডেটা হবে ফ্রেম অধ্যয়ন করা হচ্ছে এবং এমন একটি পদ্ধতির যা অতিরিক্ত শনাক্তকারী বা ব্যাকগ্রাউন্ডের তথ্যগুলিকে আগাছা করে যা জিনিসগুলিকে বিভ্রান্ত করতে বা সিস্টেমকে ধীর করতে পারে। (রিডজব ভূমিকা: ডেটা ইঞ্জিনিয়ার।)
আরও তথ্যের জন্য, আসুন দেখুন কীভাবে এটি মেশিন লার্নিংয়ের সীমানায় কাজ করে। (101 মেশিন লার্নিং পড়ুন।)
মেশিন লার্নিং বিশেষজ্ঞরা "ওভারফিটিং" নামক এমন কিছু সম্পর্কে কথা বলেন যেখানে মেশিন লার্নিং প্রোগ্রামটি নতুন উত্পাদন ডেটার উপর আলগা হয়ে গেলে অত্যধিক জটিল মডেল কম কার্যকর ফলাফলের দিকে নিয়ে যায়।
ওভারফিটিং তখন ঘটে যখন একটি জটিল প্রশিক্ষণের সেট পয়েন্ট প্রাথমিক প্রশিক্ষণের সেটটিকে খুব ভালভাবে মেলে এবং প্রোগ্রামটিকে সহজেই নতুন ডেটার সাথে মানিয়ে নিতে দেয় না।
প্রযুক্তিগতভাবে, ওভারফিটিং অনেকগুলি ডেটা নমুনার অস্তিত্বের কারণে নয়, বরং অনেকগুলি ডেটা পয়েন্টের রাজ্যাভিষেকের কারণে ঘটে। তবে আপনি তর্ক করতে পারেন যে খুব বেশি ডেটা থাকাও এই ধরণের সমস্যায় অবদান রাখার কারণ হতে পারে। মাত্রিকতার অভিশাপটি মোকাবেলায় কিছু একই কৌশল জড়িত যা পূর্বের বড় ডেটা প্রকল্পগুলিতে করা হয়েছিল কারণ পেশাদাররা তারা আইটি সিস্টেমগুলি কী খাচ্ছিল তা নির্ধারণ করার চেষ্টা করেছিল।
মূল কথাটি হ'ল বড় ডেটা সংস্থাগুলির পক্ষে প্রচুর সহায়ক হতে পারে বা এটি একটি বড় চ্যালেঞ্জ হতে পারে। এর একটি দিক হ'ল সংস্থার খেলতে সঠিক তথ্য আছে কিনা। বিশেষজ্ঞরা জানেন যে সমস্ত ডেটা সম্পদকে কেবল একটি হুপারে ফেলে দেওয়া এবং সেইভাবে অন্তর্দৃষ্টি সহ্য করার পরামর্শ দেওয়া উচিত নয় - নতুন ক্লাউড-নেটিভ এবং পরিশীলিত ডেটা সিস্টেমগুলিতে আরও সঠিক এবং সঠিক হওয়ার জন্য ডেটা নিয়ন্ত্রণ এবং পরিচালনা এবং সঠিক করার চেষ্টা করা হচ্ছে তথ্য সম্পদের বাইরে দক্ষ ব্যবহার