বাড়ি প্রবণতা হ্যাডুপ কীভাবে বড় ডেটা সমস্যা সমাধান করতে সহায়তা করে

হ্যাডুপ কীভাবে বড় ডেটা সমস্যা সমাধান করতে সহায়তা করে

সুচিপত্র:

Anonim

বড় তথ্য হ'ল … ভাল … আকারে বড়! বড় ডেটা হিসাবে কতটা ডেটা শ্রেণিবদ্ধ করা যায় ঠিক তা খুব পরিষ্কার নয়, তাই আসুন সেই বিতর্কে জড়িয়ে পড়ুন না। গিগাবাইটে ডেটা ব্যবহারের জন্য ব্যবহৃত একটি ছোট সংস্থার জন্য, 10 টিবি ডেটা বিআইজি হবে। তবে ফেসবুক এবং ইয়াহুর মতো সংস্থার জন্য পেটাবাইট বড় tes


কেবলমাত্র বড় ডেটার আকার, এটি ডেটাবেস বা প্রচলিত ফাইলারগুলির মতো traditionalতিহ্যবাহী স্টোরেজে সংরক্ষণ করা অসম্ভব (বা কমপক্ষে ব্যয় প্রতিরোধকারী) করে তোলে। আমরা গিগাবাইট ডেটা সংরক্ষণের জন্য ব্যয়ের কথা বলছি। প্রচলিত স্টোরেজ ফাইলার্স ব্যবহার করে বড় ডেটা সঞ্চয় করতে প্রচুর অর্থ ব্যয় হতে পারে।


এখানে আমরা বড় ডেটা, এর চ্যালেঞ্জগুলি এবং হাদুপ কীভাবে সেগুলি সমাধান করতে সহায়তা করতে পারে সে সম্পর্কে এক ঝলক নেব। প্রথমত, বড় ডেটার সবচেয়ে বড় চ্যালেঞ্জ।


বিগ ডেটা আনস্ট্রাকচার্ড বা আধা-কাঠামোগত

প্রচুর বড় ডেটা আনস্ট্রিক্টড। উদাহরণস্বরূপ, ক্লিক স্ট্রিম লগ ডেটা দেখতে পারে:


সময় স্ট্যাম্প, ব্যবহারকারী_আইডি, পৃষ্ঠা, রেফারার_পেজ


কাঠামোর অভাবে বড় ডেটা সঞ্চয় করার জন্য রিলেশনাল ডাটাবেসগুলি ভালভাবে উপযুক্ত হয় না। এছাড়াও, অনেকগুলি ডাটাবেসই কোটি কোটি সারির ডেটা সঞ্চয় করার সাথে মোকাবিলা করতে পারে না।

আমরা যদি এটি প্রক্রিয়া করতে না পারি তবে বড় ডেটা সংরক্ষণ করার কোনও অর্থ নেই

বড় ডেটা সংরক্ষণ করা গেমের অংশ। আমাদের এটির বাইরে আমার বুদ্ধি প্রক্রিয়াকরণ করতে হবে। প্রচলিত স্টোরেজ সিস্টেমগুলি "বোকা" "অর্থে যে তারা কেবল বিট সংরক্ষণ করে। তারা কোনও প্রক্রিয়াকরণ শক্তি সরবরাহ করে না।


Traditionalতিহ্যবাহী ডেটা প্রসেসিং মডেলটিতে স্টোরেজ ক্লাস্টারে ডেটা থাকে যা প্রসেসিংয়ের জন্য একটি গণনা ক্লাস্টারে অনুলিপি করা হয়। ফলাফলগুলি স্টোরেজ ক্লাস্টারে ফিরে লেখা হয়।


এই মডেলটি তবে বড় ডেটার পক্ষে যথেষ্ট কাজ করে না কারণ একটি গণনা ক্লাস্টারে এতগুলি ডেটা অনুলিপি করা খুব বেশি সময়সাপেক্ষ বা অসম্ভব হতে পারে। তাহলে সঠিক উত্তরটি কি?


একটি সমাধান হ'ল স্থানে বড় ডেটা প্রক্রিয়া করা, যেমন কোনও স্টুডিও ক্লাস্টারে একটি কম্পিউট ক্লাস্টার হিসাবে দ্বিগুণ।


সুতরাং আমরা উপরে যেমন দেখেছি, বড় ডেটা traditionalতিহ্যবাহী স্টোরেজকে অস্বীকার করে। তাহলে আমরা কীভাবে বড় ডেটা পরিচালনা করব?

হডুপ কীভাবে বিগ ডেটা সমস্যা সমাধান করে

হ্যাডোপ একটি মেশিনের ক্লাস্টারে চালানোর জন্য নির্মিত

একটি উদাহরণ দিয়ে শুরু করা যাক। আসুন আমরা বলি যে আমাদের প্রচুর ফটো সঞ্চয় করতে হবে। আমরা একটি একক ডিস্ক দিয়ে শুরু করব। যখন আমরা একটি একক ডিস্ক অতিক্রম করি, আমরা কোনও মেশিনে স্ট্যাকযুক্ত কয়েকটি ডিস্ক ব্যবহার করতে পারি। যখন আমরা একক মেশিনে সমস্ত ডিস্ক সর্বাধিক আউট করি তখন আমাদের একগুচ্ছ ডিস্কের একগুচ্ছ মেশিনের দরকার হয়।


হাদোপ ঠিক এভাবেই নির্মিত। হ্যাডোপ ডিজিটাল করা হয়েছে গ-গো থেকে মেশিনের ক্লাস্টারে চালানোর জন্য।



হ্যাডোপ ক্লাস্টারগুলি অনুভূমিকভাবে স্কেল করে

একটি হ্যাডোপ ক্লাস্টারে আরও নোড যুক্ত করে আরও স্টোরেজ এবং গণনা শক্তি অর্জন করা যায়। এটি আরও বেশি ক্ষমতাশালী এবং ব্যয়বহুল হার্ডওয়্যার কেনার প্রয়োজনীয়তা দূর করে।


হ্যাডোপ আনস্ট্রাকচারড / আধা-কাঠামোগত ডেটা পরিচালনা করতে পারে

হডোপ এটি সংরক্ষণ করে এমন ডেটাতে স্কিমা প্রয়োগ করে না। এটি স্বেচ্ছাসেবী পাঠ্য এবং বাইনারি ডেটা পরিচালনা করতে পারে। সুতরাং হ্যাডোপ সহজেই যে কোনও অনিবদ্ধ ডেটা হজম করতে পারে।


হাদুপ ক্লাস্টারগুলি স্টোরেজ এবং কম্পিউটিং সরবরাহ করে

আমরা দেখেছি কীভাবে পৃথক স্টোরেজ এবং প্রসেসিং ক্লাস্টার থাকা বড় ডেটার জন্য সবচেয়ে উপযুক্ত নয়। হ্যাডোপ ক্লাস্টারগুলি স্টোরেজ সরবরাহ করে এবং সমস্তগুলিকে একসাথে বিতরণ করে।

বিজনেস কেস হ্যাডোপের জন্য

হডোপ যুক্তিসঙ্গত ব্যয়ে বড় ডেটার জন্য সঞ্চয়স্থান সরবরাহ করে

প্রচলিত স্টোরেজ ব্যবহার করে বড় ডেটা সঞ্চয় করা ব্যয়বহুল। হডোপ পণ্য হার্ডওয়্যারকে ঘিরে তৈরি করা হয়েছে, সুতরাং এটি যুক্তিসঙ্গত ব্যয়ের জন্য মোটামুটি বড় স্টোরেজ সরবরাহ করতে পারে। পেডাবাইট স্কেলে হ্যাডোপ মাঠে ব্যবহৃত হয়েছে।


ক্লৌডেরার এক সমীক্ষায় পরামর্শ দেওয়া হয়েছে যে উদ্যোগগুলি প্রতি বছরে প্রতি টেরাবাইটে প্রায় 25, 000 ডলার থেকে 50, 000 ডলার ব্যয় করে। হাদুপের সাথে, এই খরচটি প্রতি বছরে কয়েক ট্যারাবাইট কয়েক হাজার ডলারে নেমে আসে। হার্ডওয়্যার যেমন সস্তা এবং সস্তা হয়ে যায়, তেমনি এই ব্যয়টিও কমতে থাকে।


হাদুপ নতুন বা আরও বেশি ডেটা ক্যাপচারের অনুমতি দেয়

কখনও কখনও সংস্থাগুলি এক ধরণের ডেটা ক্যাপচার করে না কারণ এটি সংরক্ষণ করা ব্যয়বহুল ছিল। হাদুপ যেহেতু যুক্তিসঙ্গত খরচে সঞ্চয়স্থান সরবরাহ করে, এই ধরণের ডেটা ক্যাপচার এবং সঞ্চয় করা যায়।


একটি উদাহরণ ওয়েবসাইট ক্লিক লগ হবে। কারণ এই লগগুলির পরিমাণ খুব বেশি হতে পারে, অনেক সংস্থাগুলি এগুলি ক্যাপচার করে না। এখন হাদুপের সাহায্যে লগগুলি ক্যাপচার এবং সংরক্ষণ করা সম্ভব।


হ্যাডুপের সাহায্যে আপনি আর ডেটা সঞ্চয় করতে পারেন

সঞ্চিত ডেটার ভলিউম পরিচালনা করতে, সংস্থাগুলি পর্যায়ক্রমে পুরানো ডেটা পরিষ্কার করে। উদাহরণস্বরূপ, শুধুমাত্র গত তিন মাসের লগগুলি সংরক্ষণ করা যেতে পারে, তবে পুরানো লগগুলি মোছা হয়েছিল। হাদুপের সাহায্যে historicalতিহাসিক ডেটা বেশি দীর্ঘ সংরক্ষণ করা সম্ভব। এটি পুরানো historicalতিহাসিক ডেটাতে নতুন বিশ্লেষণগুলি করার অনুমতি দেয়।


উদাহরণস্বরূপ, একটি ওয়েবসাইট থেকে ক্লিক লগ নিতে। কয়েক বছর আগে, জনপ্রিয় পৃষ্ঠাগুলির মতো পরিসংখ্যান গণনা করার জন্য এই লগগুলি সংক্ষিপ্ত সময়ের জন্য সংরক্ষণ করা হয়েছিল। হ্যাডোপের সাথে এখন, এই ক্লিক লগগুলি দীর্ঘ সময়ের জন্য সংরক্ষণ করা কার্যকর।


Hadoop স্কেলযোগ্য বিশ্লেষণ সরবরাহ করে

যদি আমরা সেগুলি বিশ্লেষণ করতে না পারি তবে এই সমস্ত ডেটা সংরক্ষণ করার কোনও অর্থ নেই। হাদুপ কেবল বিতরণকৃত স্টোরেজই সরবরাহ করে না, পাশাপাশি বিতরণ প্রক্রিয়াকরণও করে, যার অর্থ আমরা সমান্তরালভাবে একটি বিশাল পরিমাণের ডেটা ক্রাচ করতে পারি। হাদোপের গণনা কাঠামোটিকে ম্যাপ্রেডুস বলা হয়। পেটবাইটের স্কেলে মানচিত্রের প্রমাণিত হয়েছে।


হাদুপ সমৃদ্ধ বিশ্লেষণ সরবরাহ করে

নেটিভ ম্যাপ্রেইডুস প্রাথমিক প্রোগ্রামিং ভাষা হিসাবে জাভা সমর্থন করে। রুবি, পাইথন এবং আর এর মতো অন্যান্য ভাষাও ব্যবহার করা যেতে পারে।


অবশ্যই, হ্যাডোপে ডেটা বিশ্লেষণের একমাত্র উপায় কাস্টম ম্যাপ্রেডস কোড লেখা নয়। উচ্চ-স্তরের মানচিত্র হ্রাস পাওয়া যায়। উদাহরণস্বরূপ, পিগ নামের একটি সরঞ্জাম ডেটা ফ্লো ভাষার মতো ইংরেজি নেয় এবং সেগুলি ম্যাপ্রেডসে অনুবাদ করে। হাইভ, অন্য একটি সরঞ্জাম এসকিউএল অনুসন্ধানগুলি নেয় এবং ম্যাপ্রেডুস ব্যবহার করে সেগুলি চালায়।


ব্যবসায়িক বুদ্ধি (বিআই) সরঞ্জামগুলি আরও উচ্চতর বিশ্লেষণ সরবরাহ করতে পারে। এই ধরণের বিশ্লেষণের জন্যও সরঞ্জাম রয়েছে।


এই বিষয়বস্তুটি মার্ক কের্জনার এবং সুজি ম্যানিয়ামের "হ্যাডোপ আলোকিত" থেকে উদ্ধৃত হয়েছে। এটি ক্রিয়েটিভ কমন্স অ্যাট্রিবিউশন-নন-বাণিজ্যিক-শেয়ারএলক 3.0 আনপোর্টেড লাইসেন্সের মাধ্যমে উপলব্ধ করা হয়েছে।

হ্যাডুপ কীভাবে বড় ডেটা সমস্যা সমাধান করতে সহায়তা করে