یادداشت

فناوری کلان داده Big Data(قسمت دوم)

حمیده مولائی مدیرمسئول:

در قسمت پیشین مقدماتی درباره Big Data توضیح دادیم و گفتیم کلان داده، به حجم زیاد داده‌هـا مربوط است، حجمی که هر روز نیز رو به افزایش است و هر یک از ما در هر مقیاسی که فعال باشیم، جلوه‌هایی از آن را مشاهده و تجربه کرده‌ایم. سپس در مـورد اینکه چـرا کلان داده مهـم است پرداختیم و اشاره نمودیم که شرکت‌ها از داده‌های بـزرگ در سیستـم‌های خود برای بهبود عملیات، ارائه خدمات بهتر به مشتریان، ایجاد کمپین‌های بازاریابـی شخصی و سایر اقداماتی که در نهایت می‌توانند درآمد و سود را افزایش دهند، استفاده می‌کنند و در انتها نمونه‌هایی از آن را عنوان کردیم.

در ادامـه به چهار نوع فناوری داده های بزرگ می پردازیم:

4 نوع فناوری داده های بزرگ

کـلان داده هـا را مـی‌تـوان بـا استفـاده از فناوری‌هایـی که به چهـار نوع دسته بنـدی می شوند، مهار کرد. از آنجایـی کـه شـرکت‌های فنـاوری ماننـد آمازون، متا و گوگل به رشد و ادغام با زندگی ما ادامه می‌دهند، از فناوری‌هـای کلان داده برای نظارت بر فروش، بهبـود کارایی زنجیره تأمین و رضایت مشتـری و پیش‌بینی نتایج کسب‌وکار آینده استفاده می‌کنند. در حال حاضر، داده‌های بزرگ بسیار زیادی وجود دارد که شرکت بین‌المللی داده (IDC) پیش‌بینی می‌کند که «کره داده جهانی» از 33 زتابایت (ZB) در سال 2018 به 175 ZB در سال 2025 رشد خواهد کرد.

این معادل یک تریلیون گیگابایت است.

Data storage

فناوری داده‌هـای بزرگ که با ذخیـره‌سازی داده ها سروکار دارد، قابلیت واکشی، ذخیره و مدیریت داده های بزرگ را دارد. از زیرساخت هایی تشکیل شده است که به کاربران اجازه می دهد داده ها را ذخیره کنند تا دسترسی به آنها راحت باشد. اکثر پلتفرم های ذخیره سازی داده‌ها با سایر برنامه‌ها سازگار هستند. دو ابزار رایج مورد استفاده Apache Hadoop و MongoDB هستند.

Apache Hadoop: آپاچی پرکاربردترین ابزار کلان داده است. این یک پلتفرم نرم افزار منبع باز است که داده‌های بزرگ را در یک محیط محاسبـاتی توزیـع شده در میـان خوشه‌های سخت افزاری ذخیره و پردازش می‌کند. این توزیع امکان پردازش سریعتر داده‌ها را فراهم می کند.

MongoDB: یک پـایگـاه داده NoSQL است کـه مـی‌تـوانـد بـرای ذخـیـره حجـم زیـادی از داده‌ها استفاده شود. MongoDB بـا استفاده از جفت‌های کلید-مقدار (یک واحد اصلی داده) اسناد را به مجموعه‌ها دسته‌بندی می‌کند. به زبان‌های مختلف برنامه نویسی نوشته شده است و یکی از محبـوب‌ترین پایگاه داده‌های کلان داده است زیرا می‌تواند داده‌های بدون ساختار را به راحتی مدیریت و ذخیره کند.

Data mining

داده کاوی الگوها و روندهای مفید را از داده های خام استخراج می کند.

فناوری‌های کلان داده مانند Rapidminer و Presto می‌توانند داده‌های بدون ساختار و ساختار یافته را به اطلاعات قابل استفاده تبدیل کنند.

Rapidminer: یـک ابـزار داده کـاوی اسـت کـه می‌تواند برای ساخت مدل‌های پیش‌بینی استفاده شود. از این دو نقـش به عنـوان نقـاط قوت استفـاده می کند، پردازش و آماده سازی داده ها، و ساخت مدل های یادگیری ماشینی و عمیق. مدل انتها به انتها به هر دو عملکرد اجازه می دهد تا در سراسر سازمان تأثیر بگذارند.

Presto: یک موتور پرس و جو منبع باز است که در ابتدا توسط فیس بوک برای اجـرای پرس و جوهای تحلیلی در برابر مجموعه داده های بزرگ خود توسعه داده شد. در حال حاضر، آن را به طور گسترده ای در دسترس است. یک پرس و جو در Presto می‌تواند داده ها را از چندین منبع در یک سازمان ترکیب کند و در عرض چند دقیقه روی آنها تجزیه و تحلیل انجام دهد.

Data analytics

در تـجـزیـه و تـحـلیـل داده هـای بـزرگ، از فنـاوری‌ها برای پاکسـازی و تبدیل داده‌ها به اطلاعاتـی استفاده می‌شـود که می‌توانـد برای هدایـت تصمیمـات تجـاری مورد استفاده قرار گیرد.

این مرحله بعدی (پس از داده کاوی) جایی است که کاربران با استفاده از ابزارهایی الگوریتم‌ها و تحلیل‌های پیش‌بینی را انجام می‌دهند.

آپاچی اسپارک: یک ابزار کلان داده محبوب بـرای تجـزیه و تحلیـل داده‌ها است زیـرا در اجـــرای برنــامه‌هـا سریـع و کارآمد است. این سریعتر از Hadoop است زیرا از حافظه دسترسی تصادفی (RAM) به جای ذخیـره و پردازش به صـورت دسته‌ای از طریـق MapReduce استفاده می‌کند. Spark از طیف گسترده ای از وظایف و پرس و جوهای تجزیه و تحلیل داده پشتیبانی می کند.

Splunk : یکی دیگر از ابزارهای محبوب تجزیه و تحلیل کلان داده برای استخراج بینش از مجموعه داده های بزرگ است. قابلیت تولید نمودار، نمودار، گزارش و داشبورد را دارد. Splunk همچنیـن کاربـران را قادر می‌سازد تا هوش مصنـوعی (AI) را در نتایج داده ها بگنجانند.

Data visualization

در نهـایت، از فناوری‌هـای کلان داده مـی‌توان برای ایجاد تجسم‌های خیره‌کننده از داده‌ها استفاده کرد. در نقش‌های داده‌محـور، تجسم داده‌ها مهـارتی است که برای ارائه توصیه‌هایی به ذینفعان برای سودآوری و عملیات کسب‌وکار مفید است – برای بیان یک داستان تأثیرگذار با یک نمودار ساده. Tableau : یک ابزار بسیار محبوب در تجسم داده ها است زیرا رابط کشیدن و رها کردن آن ایجاد نمودار دایره‌ای، نمودار میله ای، نمودار جعبه، نمودار گانت و موارد دیگر را آسان می کند. این یک پلتفرم امن است که به کاربران امکان می‌دهد تصاویر و داشبوردها را در زمان واقعی به اشتراک بگذارند. Looker: یک ابزار هوش تجاری (BI) است که برای درک تحلیل داده‌های بزرگ و سپس به اشتراک گذاری آن بینش با سایر تیم‌ها استفاده می شود.

منابع: https://www.coursera.org/

Fuel Your Pipeline Faster

Datamation Homepage: Emerging Enterprise Tech Analysis and Products

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا