সুচিপত্র:
সংজ্ঞা - আউটিলার সনাক্তকরণ বলতে কী বোঝায়?
আউটলিয়ার সনাক্তকরণ হ'ল সনাক্তকরণ এবং পরবর্তীকালে প্রদত্ত ডেটাগুলির সেট থেকে বহিরাগতদের বাদ দেওয়ার প্রক্রিয়া।
একজন আউটলেটর ডেটা বা পর্যবেক্ষণের একটি অংশ হিসাবে সংজ্ঞায়িত করা যেতে পারে যা প্রদত্ত নিয়ম বা ডেটা সেটের গড় থেকে খুব দ্রুত বিচ্যুত হয়। একজন আউটলেটর কেবলমাত্র সুযোগের কারণে ঘটতে পারে তবে এটি পরিমাপের ত্রুটি বা ইঙ্গিত দেয় যে প্রদত্ত ডেটা সেটটিতে ভারী-লেজযুক্ত বিতরণ রয়েছে।
আউটলেট সনাক্তকরণের জন্য এখানে একটি সাধারণ দৃশ্য রয়েছে, একটি পরিমাপ প্রক্রিয়া ধারাবাহিকভাবে 1 এবং 10 এর মধ্যে রিডআউট তৈরি করে তবে কিছু বিরল ক্ষেত্রে আমরা 20 এরও বেশি পরিমাপ পাই।
আদর্শের বাইরে এই বিরল পরিমাপগুলিকে আউটলিয়ার বলা হয় কারণ তারা সাধারণ বিতরণ বক্ররেখা "বাইরে থাকে"।
টেকোপিডিয়া আউটিলার সনাক্তকরণের ব্যাখ্যা দেয়
আউটলেট নির্ধারণের জন্য সত্যই কোনও মানসম্মত এবং অনমনীয় গাণিতিক পদ্ধতি নেই কারণ এটি সেট বা ডেটা জনসংখ্যার উপর নির্ভর করে সত্যই পরিবর্তিত হয়, সুতরাং এর সংকল্প এবং সনাক্তকরণ শেষ পর্যন্ত বিষয়বস্তুতে পরিণত হয়। প্রদত্ত ডেটা ফিল্ডে অবিচ্ছিন্ন নমুনার মাধ্যমে সনাক্তকরণকে আরও সহজ করার জন্য একজন আউটলারের বৈশিষ্ট্য স্থাপন করা যেতে পারে।
আউটলিয়ারগুলি সনাক্ত করার জন্য মডেল-ভিত্তিক পদ্ধতি রয়েছে এবং তারা ধরে নিয়েছে যে ডেটাগুলি সমস্ত একটি সাধারণ বিতরণ থেকে নেওয়া হয়েছে এবং পর্যবেক্ষণ বা পয়েন্টগুলি সনাক্ত করবে, যা বিদেশী হিসাবে গড় বা মান বিচ্যুতির ভিত্তিতে অসম্ভব বলে মনে করা হয়। আউটিলার সনাক্তকরণের জন্য কয়েকটি পদ্ধতি রয়েছে:
- আউটলিয়ারদের জন্য গ্রাবের পরীক্ষা - এটি এই ধারণাটি উপর ভিত্তি করে তৈরি করা হয় যে ডেটা একটি সাধারণ বিতরণ এবং এটির ফলে একবারে একজন আউটলারকে অপসারণ করা হয় যাতে পরীক্ষাটি পুনরুক্তি করা হয় যতক্ষণ না আরও কোনও বিদেশী খুঁজে পাওয়া যায় না।
- ডিক্সনের কিউ টেস্ট - এছাড়াও ডেটা সেটের স্বাভাবিকতার উপর ভিত্তি করে, এই পদ্ধতিটি খারাপ ডেটার জন্য পরীক্ষা করে। এটি লক্ষ্য করা গেছে যে এটি অল্প পরিমাণে ব্যবহার করা উচিত এবং ডেটা সেটে একের বেশি কখনও হবে না।
- চৌভেনেটের মানদণ্ড - এটি নির্ধারিত ব্যক্তি উত্সাহিত বা এখনও সীমানার মধ্যে থাকে এবং সেটটির অংশ হিসাবে বিবেচিত হয় তা বিশ্লেষণ করতে এটি ব্যবহৃত হয়। গড় এবং মানক বিচ্যুতি নেওয়া হয় এবং সম্ভাব্যতা যে বহিরাগত হয় তা গণনা করা হয়। ফলাফল অন্তর্ভুক্ত করা উচিত কিনা তা নির্ধারণ করবে।
- পিয়ার্সের মানদণ্ড - পর্যবেক্ষণের একটি সিরিজের জন্য একটি ত্রুটির সীমা নির্ধারণ করা হয়েছে, এর বাইরে সমস্ত পর্যবেক্ষণ বাতিল করা হবে কারণ তারা ইতিমধ্যে এ জাতীয় দুর্দান্ত ত্রুটি জড়িত।