فناوری کلان داده Big Data(قسمت دوم)
حمیده مولائی مدیرمسئول:
در قسمت پیشین مقدماتی درباره Big Data توضیح دادیم و گفتیم کلان داده، به حجم زیاد دادههـا مربوط است، حجمی که هر روز نیز رو به افزایش است و هر یک از ما در هر مقیاسی که فعال باشیم، جلوههایی از آن را مشاهده و تجربه کردهایم. سپس در مـورد اینکه چـرا کلان داده مهـم است پرداختیم و اشاره نمودیم که شرکتها از دادههای بـزرگ در سیستـمهای خود برای بهبود عملیات، ارائه خدمات بهتر به مشتریان، ایجاد کمپینهای بازاریابـی شخصی و سایر اقداماتی که در نهایت میتوانند درآمد و سود را افزایش دهند، استفاده میکنند و در انتها نمونههایی از آن را عنوان کردیم.
در ادامـه به چهار نوع فناوری داده های بزرگ می پردازیم:
4 نوع فناوری داده های بزرگ
کـلان داده هـا را مـیتـوان بـا استفـاده از فناوریهایـی که به چهـار نوع دسته بنـدی می شوند، مهار کرد. از آنجایـی کـه شـرکتهای فنـاوری ماننـد آمازون، متا و گوگل به رشد و ادغام با زندگی ما ادامه میدهند، از فناوریهـای کلان داده برای نظارت بر فروش، بهبـود کارایی زنجیره تأمین و رضایت مشتـری و پیشبینی نتایج کسبوکار آینده استفاده میکنند. در حال حاضر، دادههای بزرگ بسیار زیادی وجود دارد که شرکت بینالمللی داده (IDC) پیشبینی میکند که «کره داده جهانی» از 33 زتابایت (ZB) در سال 2018 به 175 ZB در سال 2025 رشد خواهد کرد.
این معادل یک تریلیون گیگابایت است.
Data storage
فناوری دادههـای بزرگ که با ذخیـرهسازی داده ها سروکار دارد، قابلیت واکشی، ذخیره و مدیریت داده های بزرگ را دارد. از زیرساخت هایی تشکیل شده است که به کاربران اجازه می دهد داده ها را ذخیره کنند تا دسترسی به آنها راحت باشد. اکثر پلتفرم های ذخیره سازی دادهها با سایر برنامهها سازگار هستند. دو ابزار رایج مورد استفاده Apache Hadoop و MongoDB هستند.
Apache Hadoop: آپاچی پرکاربردترین ابزار کلان داده است. این یک پلتفرم نرم افزار منبع باز است که دادههای بزرگ را در یک محیط محاسبـاتی توزیـع شده در میـان خوشههای سخت افزاری ذخیره و پردازش میکند. این توزیع امکان پردازش سریعتر دادهها را فراهم می کند.
MongoDB: یک پـایگـاه داده NoSQL است کـه مـیتـوانـد بـرای ذخـیـره حجـم زیـادی از دادهها استفاده شود. MongoDB بـا استفاده از جفتهای کلید-مقدار (یک واحد اصلی داده) اسناد را به مجموعهها دستهبندی میکند. به زبانهای مختلف برنامه نویسی نوشته شده است و یکی از محبـوبترین پایگاه دادههای کلان داده است زیرا میتواند دادههای بدون ساختار را به راحتی مدیریت و ذخیره کند.
Data mining
داده کاوی الگوها و روندهای مفید را از داده های خام استخراج می کند.
فناوریهای کلان داده مانند Rapidminer و Presto میتوانند دادههای بدون ساختار و ساختار یافته را به اطلاعات قابل استفاده تبدیل کنند.
Rapidminer: یـک ابـزار داده کـاوی اسـت کـه میتواند برای ساخت مدلهای پیشبینی استفاده شود. از این دو نقـش به عنـوان نقـاط قوت استفـاده می کند، پردازش و آماده سازی داده ها، و ساخت مدل های یادگیری ماشینی و عمیق. مدل انتها به انتها به هر دو عملکرد اجازه می دهد تا در سراسر سازمان تأثیر بگذارند.
Presto: یک موتور پرس و جو منبع باز است که در ابتدا توسط فیس بوک برای اجـرای پرس و جوهای تحلیلی در برابر مجموعه داده های بزرگ خود توسعه داده شد. در حال حاضر، آن را به طور گسترده ای در دسترس است. یک پرس و جو در Presto میتواند داده ها را از چندین منبع در یک سازمان ترکیب کند و در عرض چند دقیقه روی آنها تجزیه و تحلیل انجام دهد.
Data analytics
در تـجـزیـه و تـحـلیـل داده هـای بـزرگ، از فنـاوریها برای پاکسـازی و تبدیل دادهها به اطلاعاتـی استفاده میشـود که میتوانـد برای هدایـت تصمیمـات تجـاری مورد استفاده قرار گیرد.
این مرحله بعدی (پس از داده کاوی) جایی است که کاربران با استفاده از ابزارهایی الگوریتمها و تحلیلهای پیشبینی را انجام میدهند.
آپاچی اسپارک: یک ابزار کلان داده محبوب بـرای تجـزیه و تحلیـل دادهها است زیـرا در اجـــرای برنــامههـا سریـع و کارآمد است. این سریعتر از Hadoop است زیرا از حافظه دسترسی تصادفی (RAM) به جای ذخیـره و پردازش به صـورت دستهای از طریـق MapReduce استفاده میکند. Spark از طیف گسترده ای از وظایف و پرس و جوهای تجزیه و تحلیل داده پشتیبانی می کند.
Splunk : یکی دیگر از ابزارهای محبوب تجزیه و تحلیل کلان داده برای استخراج بینش از مجموعه داده های بزرگ است. قابلیت تولید نمودار، نمودار، گزارش و داشبورد را دارد. Splunk همچنیـن کاربـران را قادر میسازد تا هوش مصنـوعی (AI) را در نتایج داده ها بگنجانند.
Data visualization
در نهـایت، از فناوریهـای کلان داده مـیتوان برای ایجاد تجسمهای خیرهکننده از دادهها استفاده کرد. در نقشهای دادهمحـور، تجسم دادهها مهـارتی است که برای ارائه توصیههایی به ذینفعان برای سودآوری و عملیات کسبوکار مفید است – برای بیان یک داستان تأثیرگذار با یک نمودار ساده. Tableau : یک ابزار بسیار محبوب در تجسم داده ها است زیرا رابط کشیدن و رها کردن آن ایجاد نمودار دایرهای، نمودار میله ای، نمودار جعبه، نمودار گانت و موارد دیگر را آسان می کند. این یک پلتفرم امن است که به کاربران امکان میدهد تصاویر و داشبوردها را در زمان واقعی به اشتراک بگذارند. Looker: یک ابزار هوش تجاری (BI) است که برای درک تحلیل دادههای بزرگ و سپس به اشتراک گذاری آن بینش با سایر تیمها استفاده می شود.
منابع: https://www.coursera.org/
Datamation Homepage: Emerging Enterprise Tech Analysis and Products