چه مدیر ارشد کارخانه‌ای بزرگ باشید یا صاحب مغازه‌ای کوچک یا حتی دانشجویی در پی مدیریت هزینه‌های شخصی، به طور اجتناب‌ناپذیری با حجم زیادی از داده‌های خام و اطلاعات به ظاهر بی‌مصرف سروکار خواهیدداشت.
کد خبر: ۱۳۸۲۵۱۹
نویسنده جواد فیاض - گروه دانش و سلامت
ما هر روز هنگام مواجهه با مسائل روزمره، ناخودآگاه بر اساس تجربه‌های قبلی خود تصمیم‌گیری می‌کنیم. تجربه نیز شکلی از اطلاعات و داده است که صرفا در ذهن شخص جای دارد. حالا اگر این تصمیم‌گیری‌ها بر اساس اطلاعات و داده‌های از پیش ثبت‌شده یا بهتر از آن، بر اساس داده‌های پردازش‌شده باشد، چه خواهدشد؟! به طور کلی، «داده‌کاوی» به فرآیند تبدیل داده‌های خام به اطلاعات ساده و قابل‌فهم با کمک کشف الگو‌های پنهان در داده‌ها با ابزار‌هایی مانند شاخص‌های آماری و ... گفته‌می‌شود. اما چرا داده‌کاوی در دنیای امروز تا این حد مورد توجه قرار گرفته است؟

«داده، نفت قرن۲۱ است و داده‌کاوی موتور احتراق آن». شاید این جمله پیتر ساندرگارد مشاور ارشد شرکت فناوری اطلاعات گارتنر، بهترین تعبیر از میزان اهمیت داده‌ها و پردازش آن است. با شروع هزاره جدید و پیشرفت روزافزان و پرشتاب فناوری، حجم داده‌های تولیدشده نیز به میزان قابل‌توجهی افزایش یافتند.

به نوعی ما در جهان امروز با حجم بسیار بزرگی از داده‌ها احاطه‌شده‌ایم. داده‌های علمی و آزمایشگاهی تراکنش‌های بانکی، داده‌های بازار سرمایه و حتی عکس و فیلم و هر چیزی که در فضای مجازی و اینترنت وجود دارد و ... همگی شکلی از منابع در دسترس داده و اطلاعات خام هستند. از آنجا که «نیاز، مادر اختراع است» برای سود بردن از این داده‌ها و تبدیل آن به دانشی قابل‌استفاده، نیاز به ابزار مناسب این کار یعنی داده‌کاوی داریم. در هر زمینه‌ای داده‌ای برای تولید و تحلیل وجود دارد، لذا داده‌کاوی دانشی میان‌رشته‌ای تلقی می‌شود.

جاده منتهی به دانش

داده‌کاوی تعریف دیگری نیز دارد؛ فرآیند دریافت داده از منابع و رسیدن به دانش یا به اختصار «کشف دانش از داده» (KDD). به بیان دیگر، شما با انجام مجموعه‌ای عملیات، اطلاعات خام را به اطلاعاتی قابل‌درک و مفید تبدیل می‌کنید. فرضا اگر شما فقط با دیدن نمودار روند قیمت سالانه یک نماد بورسی اقدام به خرید یا فروش آن کردید، به طور ناخواسته از داده‌کاوی در تصمیم‌گیری نهایی خود بهره برده‌اید، اما همیشه نمی‌توان تا این حد ساده و پیش پاافتاده با داده‌کاوی برخورد کرد.

مسیر داده‌کاوی

برای طی مسیر داده‌کاوی به طور اصولی و صحیح لازم است هفت گام اساسی برداریم. اغلب اوقات با داده‌هایی سروکار داریم که کامل نیستند. این کامل‌نبودن می‌تواند شامل کمبود یا وجود خطا در آن باشد. در اولین گام داده‌کاوی باید این دست نواقص را شناسایی و برطرف کرد. این گام به نام «پاک‌سازی داده» شناخته‌می‌شود.

داده‌ها به شکل‌های گوناگون و بسیار زیادی وجود دارند. متن، عدد، حتی صوت و عکس از جمله آن‌ها هستند. در دومین گام داده‌کاوی، لازم است داده‌های مورد نیاز خود را از منابع مختلف موجود جمع‌آوری کنیم. در ادامه می‌بایست تمام این داده‌های تجمیع‌شده را به‌صورت یکپارچه و واحد در محیطی ذخیره کنیم.

این کار، گام دوم مسیر داده‌کاوی است که به آن «یکپارچه‌سازی داده» گفته می‌شود. حال باید از خود بپرسیم دقیقا به دنبال چه چیزی هستیم؟ کدام یک از داده‌های جمع‌آوری‌شده واقعا مورد استفاده و کدام یک غیرضروری‌است؟ تشخیص داده‌های لازم و حذف داده‌های اضافی سومین گام در داده‌کاوی به نام «انتخاب داده» است.

حجم داده‌هایی که تولید می‌شوند و نیاز به پردازش دارند خارج از تصور است. این حجم بالای داده‌ها اکثرا سبب کاهش سرعت و کارایی خواهدشد. تغییر شکل داده‌های متفاوت و یکدست‌شدن تمام داده‌ها عملیاتی است که تا حد زیادی در افزایش سرعت و دقت داده‌کاوی تاثیرگذار است. این عملیات، گام چهارم در فرآیند داده‌کاوی یعنی «تبدیل داده» است.

تا به اینجای کار، داده‌های موردنیاز خود را برای تحلیل آماده‌کرده‌ایم. حال با کمک روش‌های هوشمند مانند شاخص‌های آماری، کشف الگو‌های تکرارشونده و...

به کشف و استخراج الگو‌های جالب و منطقی پنهان‌شده در میان انبوه داده‌ها می‌پردازیم. این مرحله گام پنجم و دقیقا همان «داده‌کاوی» است. در ادامه و گام ششم نیز لازم است تا درستی و دقت این الگو‌ها را بررسی کنیم که به آن «ارزیابی الگو» گفته‌می‌شود.

اگر نتوان دانش کسب‌شده را نمایش‌داد و در نهایت آن بهره‌برد، عملا هیچ دانشی تولید نشده‌است. آخرین و مهم‌ترین گام در فرآیند داده‌کاوی «ارائه دانش» است. در این مرحله می‌بایست روابط کشف‌شده در میان انبوه داده‌ها را به دانشی قابل‌فهم برای مخاطب تبدیل‌کرد. نمایش اطلاعات به صورت نمودار‌های آماری ساده‌ترین و بهترین راه برای انتقال دانش در کوتاه‌ترین زمان ممکن به مخاطب است. نمودار‌ها اشکال مختلف و فراوانی دارند که سبب می‌شود اطلاعات را به صورت‌های گوناگونی بتوان نمایش داد. با این کار، هر شخص با هر سطحی از دانش، به راحتی می‌تواند دید مناسبی از وضعیت سوژه موردبررسی داشته‌باشد. اصلی‌ترین هدف داده‌کاوی نیز همین است؛ یعنی کسب اطلاعات و دانش از اطلاعات خام و ارائه آن به ساده‌ترین شیوه برای کمک به تصمیم‌گیری.

پس از انجام این هفت گام می‌توان ادعا کرد با استفاده از روش‌هایی مبتنی بر علم آمار، برنامه‌نویسی و... اطلاعات خام و شاید به ظاهر بی‌مصرف را به دانشی قابل‌استفاده و قابل‌اعتماد در تصمیم‌گیری‌های خود تبدیل‌کرده‌ایم.

آینده داده‌کاوی

نتیجه‌گرفتن از فرآیند داده‌کاوی نیازمند سپری‌کردن زمان زیاد، استفاده از افراد متخصص و بهره‌گیری از تجهیزات و فناوری‌های دقیق و پیشرفته است. این موارد داده‌کاوی را به دانشی نسبتا گران‌قیمت تبدیل می‌کند که فقط با بهره‌گیری از بهترین‌ها و برنامه‌ریزی دقیق قابل‌دستیابی است. اما در عین حال، به دلیل ماهیت میان‌رشته‌ای و گستردگی کاربرد آن هر شخصی می‌تواند با گذراندن آموزش‌های اولیه و پایه‌ای، تا میزان قابل‌قبولی با این دانش آشنا شود و از آن در تصمیم‌گیری‌های خود استفاده‌کند. اما آگاهی از یک‌سری دانش‌های پایه مثل آمار، برنامه‌نویسی و... نیز موردنیاز است. مهم‌تر از همه اینها، داشتن صبر و حوصله زیاد برای درگیری با اطلاعات و ناامیدنشدن از آن است. ما در حال زندگی در عصر اطلاعات هستیم و هر ثانیه به حجم این اطلاعات و داده‌ها افزوده می‌شود.

پس همیشه داده‌ای برای تحلیل و پردازش وجود خواهدداشت. همیشه هم شخصی نیازمند کسب دانش از این داده‌هاست. پس در این وضعیت، نیاز به یک «متخصص یا تحلیلگر داده» وجوددارد که بتواند این داده‌های خام را به دانشی مفید تبدیل کند. در عصر حاضر داشتن این توانایی را می‌توان با دانش پالایش نفت و گاز در قرن پیشین مقایسه‌کرد. از این رو، داده‌کاوی را می‌توان قدرتمندترین دانش و ابزار در دهه‌های آینده نامید که می‌تواند در هرگونه تصمیم‌گیری‌ای مفید و حتی ضروری باشد.

روزنامه جام جم 
ارسال نظرات در انتظار بررسی: ۰ انتشار یافته: ۰

نیازمندی ها