ما هر روز هنگام مواجهه با مسائل روزمره، ناخودآگاه بر اساس تجربههای قبلی خود تصمیمگیری میکنیم. تجربه نیز شکلی از اطلاعات و داده است که صرفا در ذهن شخص جای دارد. حالا اگر این تصمیمگیریها بر اساس اطلاعات و دادههای از پیش ثبتشده یا بهتر از آن، بر اساس دادههای پردازششده باشد، چه خواهدشد؟! به طور کلی، «دادهکاوی» به فرآیند تبدیل دادههای خام به اطلاعات ساده و قابلفهم با کمک کشف الگوهای پنهان در دادهها با ابزارهایی مانند شاخصهای آماری و ... گفتهمیشود. اما چرا دادهکاوی در دنیای امروز تا این حد مورد توجه قرار گرفته است؟
«داده، نفت قرن۲۱ است و دادهکاوی موتور احتراق آن». شاید این جمله پیتر ساندرگارد مشاور ارشد شرکت فناوری اطلاعات گارتنر، بهترین تعبیر از میزان اهمیت دادهها و پردازش آن است. با شروع هزاره جدید و پیشرفت روزافزان و پرشتاب فناوری، حجم دادههای تولیدشده نیز به میزان قابلتوجهی افزایش یافتند.
به نوعی ما در جهان امروز با حجم بسیار بزرگی از دادهها احاطهشدهایم. دادههای علمی و آزمایشگاهی تراکنشهای بانکی، دادههای بازار سرمایه و حتی عکس و فیلم و هر چیزی که در فضای مجازی و اینترنت وجود دارد و ... همگی شکلی از منابع در دسترس داده و اطلاعات خام هستند. از آنجا که «نیاز، مادر اختراع است» برای سود بردن از این دادهها و تبدیل آن به دانشی قابلاستفاده، نیاز به ابزار مناسب این کار یعنی دادهکاوی داریم. در هر زمینهای دادهای برای تولید و تحلیل وجود دارد، لذا دادهکاوی دانشی میانرشتهای تلقی میشود.
جاده منتهی به دانش
دادهکاوی تعریف دیگری نیز دارد؛ فرآیند دریافت داده از منابع و رسیدن به دانش یا به اختصار «کشف دانش از داده» (KDD). به بیان دیگر، شما با انجام مجموعهای عملیات، اطلاعات خام را به اطلاعاتی قابلدرک و مفید تبدیل میکنید. فرضا اگر شما فقط با دیدن نمودار روند قیمت سالانه یک نماد بورسی اقدام به خرید یا فروش آن کردید، به طور ناخواسته از دادهکاوی در تصمیمگیری نهایی خود بهره بردهاید، اما همیشه نمیتوان تا این حد ساده و پیش پاافتاده با دادهکاوی برخورد کرد.
مسیر دادهکاوی
برای طی مسیر دادهکاوی به طور اصولی و صحیح لازم است هفت گام اساسی برداریم. اغلب اوقات با دادههایی سروکار داریم که کامل نیستند. این کاملنبودن میتواند شامل کمبود یا وجود خطا در آن باشد. در اولین گام دادهکاوی باید این دست نواقص را شناسایی و برطرف کرد. این گام به نام «پاکسازی داده» شناختهمیشود.
دادهها به شکلهای گوناگون و بسیار زیادی وجود دارند. متن، عدد، حتی صوت و عکس از جمله آنها هستند. در دومین گام دادهکاوی، لازم است دادههای مورد نیاز خود را از منابع مختلف موجود جمعآوری کنیم. در ادامه میبایست تمام این دادههای تجمیعشده را بهصورت یکپارچه و واحد در محیطی ذخیره کنیم.
این کار، گام دوم مسیر دادهکاوی است که به آن «یکپارچهسازی داده» گفته میشود. حال باید از خود بپرسیم دقیقا به دنبال چه چیزی هستیم؟ کدام یک از دادههای جمعآوریشده واقعا مورد استفاده و کدام یک غیرضروریاست؟ تشخیص دادههای لازم و حذف دادههای اضافی سومین گام در دادهکاوی به نام «انتخاب داده» است.
حجم دادههایی که تولید میشوند و نیاز به پردازش دارند خارج از تصور است. این حجم بالای دادهها اکثرا سبب کاهش سرعت و کارایی خواهدشد. تغییر شکل دادههای متفاوت و یکدستشدن تمام دادهها عملیاتی است که تا حد زیادی در افزایش سرعت و دقت دادهکاوی تاثیرگذار است. این عملیات، گام چهارم در فرآیند دادهکاوی یعنی «تبدیل داده» است.
تا به اینجای کار، دادههای موردنیاز خود را برای تحلیل آمادهکردهایم. حال با کمک روشهای هوشمند مانند شاخصهای آماری، کشف الگوهای تکرارشونده و...
به کشف و استخراج الگوهای جالب و منطقی پنهانشده در میان انبوه دادهها میپردازیم. این مرحله گام پنجم و دقیقا همان «دادهکاوی» است. در ادامه و گام ششم نیز لازم است تا درستی و دقت این الگوها را بررسی کنیم که به آن «ارزیابی الگو» گفتهمیشود.
اگر نتوان دانش کسبشده را نمایشداد و در نهایت آن بهرهبرد، عملا هیچ دانشی تولید نشدهاست. آخرین و مهمترین گام در فرآیند دادهکاوی «ارائه دانش» است. در این مرحله میبایست روابط کشفشده در میان انبوه دادهها را به دانشی قابلفهم برای مخاطب تبدیلکرد. نمایش اطلاعات به صورت نمودارهای آماری سادهترین و بهترین راه برای انتقال دانش در کوتاهترین زمان ممکن به مخاطب است. نمودارها اشکال مختلف و فراوانی دارند که سبب میشود اطلاعات را به صورتهای گوناگونی بتوان نمایش داد. با این کار، هر شخص با هر سطحی از دانش، به راحتی میتواند دید مناسبی از وضعیت سوژه موردبررسی داشتهباشد. اصلیترین هدف دادهکاوی نیز همین است؛ یعنی کسب اطلاعات و دانش از اطلاعات خام و ارائه آن به سادهترین شیوه برای کمک به تصمیمگیری.
پس از انجام این هفت گام میتوان ادعا کرد با استفاده از روشهایی مبتنی بر علم آمار، برنامهنویسی و... اطلاعات خام و شاید به ظاهر بیمصرف را به دانشی قابلاستفاده و قابلاعتماد در تصمیمگیریهای خود تبدیلکردهایم.
آینده دادهکاوی
نتیجهگرفتن از فرآیند دادهکاوی نیازمند سپریکردن زمان زیاد، استفاده از افراد متخصص و بهرهگیری از تجهیزات و فناوریهای دقیق و پیشرفته است. این موارد دادهکاوی را به دانشی نسبتا گرانقیمت تبدیل میکند که فقط با بهرهگیری از بهترینها و برنامهریزی دقیق قابلدستیابی است. اما در عین حال، به دلیل ماهیت میانرشتهای و گستردگی کاربرد آن هر شخصی میتواند با گذراندن آموزشهای اولیه و پایهای، تا میزان قابلقبولی با این دانش آشنا شود و از آن در تصمیمگیریهای خود استفادهکند. اما آگاهی از یکسری دانشهای پایه مثل آمار، برنامهنویسی و... نیز موردنیاز است. مهمتر از همه اینها، داشتن صبر و حوصله زیاد برای درگیری با اطلاعات و ناامیدنشدن از آن است. ما در حال زندگی در عصر اطلاعات هستیم و هر ثانیه به حجم این اطلاعات و دادهها افزوده میشود.
پس همیشه دادهای برای تحلیل و پردازش وجود خواهدداشت. همیشه هم شخصی نیازمند کسب دانش از این دادههاست. پس در این وضعیت، نیاز به یک «متخصص یا تحلیلگر داده» وجوددارد که بتواند این دادههای خام را به دانشی مفید تبدیل کند. در عصر حاضر داشتن این توانایی را میتوان با دانش پالایش نفت و گاز در قرن پیشین مقایسهکرد. از این رو، دادهکاوی را میتوان قدرتمندترین دانش و ابزار در دهههای آینده نامید که میتواند در هرگونه تصمیمگیریای مفید و حتی ضروری باشد.
روزنامه جام جم