فناوری‌های بزرگ داده محور

شرکت‌ها روز به‌روز داده‌های بیشتری را ذخیره می‌کنند تا از جایگاه بهتری برخوردار شوند. داده‌های بزرگ این روزها در مرکز توجه شرکت‌ها قرار دارد. فناوری منبع‌باز را می‌توان به‌عنوان قلب تپنده این فناوری نوین شناخت.
کد خبر: ۴۸۱۸۲۲

آپاچی هادوپ

هادوپ بستر نرم‌افزاری منبع‌بازی است که برای نرم‌افزارهای توزیع‌شده داده محور طراحی شده است. این بستر توسط Doug Cutting توسعه یافت تا بتواند در موتور جستجوی منبع‌باز Nutch کار کند. برای بهره‌گیری از سیستم پردازش چند ماشینه بستر سخت‌افزاری Nutch، کاتینگ از سیستم فایل توزیع‌شده و تکنیک کاهش نگاشت استفاده کرد که با کمک همدیگر هادوپ را تشکیل دادند. هادوپ نام فیل اسباب‌بازی پسر او است. از طریق کاهش نگاشت، هادوپ داده‌های بزرگ را در تکه‌های کوچک‌تر و در گره‌های شبکه قرار می‌دهد. این فناوری هم‌اکنون به‌عنوان محبوب‌ترین واسط ذخیره‌سازی داده‌های بزرگ ساخت‌یافته، نیمه‌ساخت‌یافته و بدو ساختار استفاده می‌شود. هادوپ تحت مجوز آپاچی 0/2 منتشر شده است.

R

زبان برنامه‌نویسی منبع‌باز R برای محاسبات آماری و تصویری طراحی شده است. این زبان سال 1993، توسط راس ایهاکا و رابرت جنتلمن در دانشگاه آکلند نیوزیلند طراحی و بسرعت به یک زبان لازم در تحلیل‌های آماری بدل شد. این زبان را شرکتی به‌نام Revolution Analytics پشتیبانی می‌کند و خدمات و مدل‌های پشتیبانی شبیه سرویس‌های رد هت در لینوکس را ارائه می‌کند. زبان برنامه‌نویسی R تحت مجوز GNU GPL منتشر شده است.

Cascading

کسکیدینگ نام لایه انتزاعی منبع‌بازی است که برای هادوپ نوشته شده است. این بستر به کاربران اجازه می‌دهد جریان‌های کاری پردازش داده را با کمک زبان‌های مبتنی بر JVM در کلاسترهای هادوپ اجرا کنند. Cascading برای پنهان‌کردن پیچیدگی تکنیک کاهش‌نگاشت طراحی شده است. این بستر را کریس ونسل طراحی کرده است. از کسکیدینگ برای یافتن مخاطب‌های تبلیغاتی، تحلیل فایل‌های گزارش، بیوانفورماتیک، یادگیری ماشین، تحلیل‌های پیش‌بینی و وب‌ماینینگ استفاده می‌شود. شرکت Concurrent نیز پشتیبان این بستر است. شرکت‌های توییتر و Etsy از بزرگ‌ترین شرکت‌هایی به‌شمار می‌روند که از این فناوری منتشرشده تحت مجوز GNU GPL استفاده می‌کنند.

Scribe

اسکرایب، سروری است که سال 2008 توسط فیس‌بوک منتشر شده است. این سرور برای جمع‌آوری فایل‌های گزارش به‌صورت همزمان از تعداد زیادی سرور طراحی شده است. دلیل طراحی این سرور، قابلیت همخوانی با گسترش‌پذیری سرورهای فیس‌بوک بود. این سرور می‌تواند روزانه ده‌ها میلیارد پیغام را مدیریت کند. این سرور توسط مجوز آپاچی 0/2 منتشر شده است.

ElasticSearch

شای بنون، الاستیک‌سرچ را تحت مجوز آپاچی منتشر کرده است. این نرم‌افزار جستجو که کاملا مبتنی بر REST است، می‌تواند بدون پیکربندی خاص، به‌صورت لحظه‌ای جواب‌های جستجو را بیاورد. شرکت‌های زیادی از جمله موزیلا و StumbleUpon از الاستیک سرچ استفاده می‌کنند.

Apache HBase

اچ‌بیس که به زبان جاوا نوشته شده، مدلی از BigTable‌ گوگل است. این دیتابیس توزیع‌شده غیر رابطه‌ای ستونی می‌تواند روی سیستم فایل هادوپ اجرا شود. ذخیره و بازیابی بدون خطا و دسترسی به تعداد زیادی از داده‌های اسپارس از جمله قابلیت‌های این دیتابیس است. اچ‌بیس یکی از چند مدل انباره‌های داده NoSQL است که طی سال‌های اخیر توسعه یافته است. سال 2010، گوگل از اچ‌بیس برای سرویس پیغام‌دهی خود استفاده کرد.

Apache Cassandra

یک انبار داده NoSQL دیگر، کاساندرا که سیستم مدیریت دیتابیس توزیع‌شده است توسط فیس‌بوک منتشر شده تا سیستم جستجو در Inbox هایش را پشتیبانی کند. هر چند سال 2010 کاساندرا جای خود را به اچ‌بیس داد اما هنوز شرکت‌هایی از جمله نت‌فلیکس از این دیتابیس استفاده می‌کنند.

MongoDB

مانگودی‌بی نیز یکی دیگر از انباره‌های داده NoSQL است. این دیتابیس اطلاعات را شبیه اسناد JSON در خود ذخیره می‌کند. شرکت‌های بزرگی همچون MTV، Craigslist، Disney، New York Times و Etsy از مانگو استفاده می‌کنند.

محمدرضا قربانی

newsQrCode
ارسال نظرات در انتظار بررسی: ۰ انتشار یافته: ۰

نیازمندی ها