نگاهی بر مفاهیم و کاربردهای داده کاوی (بخش پایانی)

انفجار یک مشت صفر و یک

در دو شماره گذشته گفتیم که «با داشتن علم داده‌کاوی و معنابخشی داده‌ها، انفجار اطلاعات نخواهیم داشت». برای شناخت داده‌کاوی ابتدا باید ابزار و مراحل را شناخت و یکی از اصلی‌ترین اجزای این سلسله، فعالیت شخص داده‌کاو است.

کد خبر: ۳۰۱۸۲۷

داده‌کاو کیست؟ هدفش چیست؟

شخصی که داده‌کاوی می‌‌کند داده‌کاو1 نام دارد. او می‌تواند داده را بگیرد، یک تصویر یا یک مدل از آن بسازد و بر اساس آن روابط پنهان میان اجزا را بیابد و شرح دهد. البته در نگاه اول داده‌کاوی را ماشین و رایانه‌ها انجام می‌دهند اما این محصول اولیه کار است و ترسیم الگوریتم‌ها و آموزش ماشین بر اساس آن رویه‌ها، عملا از دست ماشین بر‌نمی‌آید.

برای داشتن تصویری ساده از کار یک داده‌کاو، دستگاه پرس ماشین‌های قدیمی را در نظر بگیرید که فارغ از نوع و جنس اشیای داخل دستگاه، تمام موجودیت‌ها را با هم ترکیب می‌کند، موجودی جدید می‌سازد و با هربار تغییر زاویه می‌تواند از همان مجموعه یک موجودیت جدید استخراج کند.

نکته: در فناوری اطلاعات، مفهومی به‌نام کسب‌وکار2 وجود دارد. همه کارهای دنیا از دید فناوری ‌اطلاعات یک کسب‌وکار است و هر ارتباطی را می‌توان یک کسب‌وکار دانست. به‌عنوان مثال، همین مطالعه یا مراجعه شما به پزشک یا حتی درس‌خواندن یک تجارت است، اما این به آن معنا نیست که در تمام کارها پول جابه‌جا شود. باید توجه داشت مفهوم کسب‌وکار با دادوستد3 متفاوت است. از این رو در دنیای فناوری اطلاعات، همه مشتری محسوب می‌شوند و از آنجا که در دنیای امروز همه چیز حول محور اقتصاد می‌گردد، محور تمام علوم نیز مشتری‌مداری (نیازسنجی مردمی) است و داده‌کاوی نیز در بیشتر موارد برای مدیریت ارتباط با مشتری و مدیریت زنجیره تامین به کار می‌رود.

چند نسل محاسبه

از سال 1950 که رایانه برای تحلیل و بارگزاری داده‌ها مورد استفاده قرارگرفت، تا امروز حجم اطلاعات و سرعت رشد ‌آن‌ها به اندازه‌ای زیاد بوده است که هم‌اکنون کسی از میزان اطلاعات ذخیره شده در پایگاه‌های داده در سراسر دنیا به‌صورت دقیق اطلاعی ندارد. اما بی‌شک حجم اطلاعات تا حدی گسترش داشته است که تحلیل‌گران در بررسی و تحلیل این پایگاه‌های داده ناتوانند. برخی از پایگاه داده‌ها به‌قدری بزرگ و پیچیده شده‌اند که استخراج روابط و اطلاعات مفید پنهان شده در ‌آن‌ها واقعا فرای ظرفیت ذهن بشر است.

از همان سال‌های اولیه، نیاز به تحلیل ماشینی داده‌ها و استخراج سریع و دقیق دانش نهفته در ‌آن‌ها احساس شد، اما از اولین کاربرد رایانه تا اولین گام برای تحلیل داده‌ها به‌روشی جدیدتر، 33سال زمان لازم بود. شاید بتوان لوول (1983) را اولین شخصی دانست که گزارشی در مورد داده‌کاوی با عنوان «مدل‌سازی فعالیت‌های پویش اطلاعات» ارائه کرد.

لزوم ساخت سیستم‌هایی برای کاربردی شدن استفاده از اطلاعات و داده، زمانی احساس شد که داده‌ها در زمان مناسب مورد استفاده نبودند و اطلاعات، کیفیت لازم را نداشتند. پس کم‌کم سیستم‌ها در 2بخش سیستم‌های اطلاعاتی و عملیاتی دسته‌بندی شدند. گرچه تمام کار ‌آن‌ها از بیرون شبیه هم است اما سیستم‌های عملیاتی از فعالیت‌های روزانه کسب‌وکار پشتیبانی می‌کنند و برای پاسخگویی سریع به ارتباطات از پیش تعریف شده، مناسب هستند مانند سیستم خرید که باید قیمت کالا به سرعت نشان داده شده و پس از محاسبه هزینه مشتری، موجودی به‌روز شود و در مقابل، سیستم‌های اطلاعاتی برای مدیریت و کنترل کلان کسب‌وکار به کار می‌روند، مانند محاسبه سود و زیان و یا محاسبه نسبت جابه‌جایی کالا یا اطلاعات.

این سامانه‌ها از تجزیه‌وتحلیل داده‌ها برای اتخاذ تصمیم درباره عملکرد آنی و آتی سازمان پشتیبانی می‌کنند و برای درخواست‌های موردی طرح‌ریزی شده‌اند (یعنی برای هر سازمان نوع خاصی از آن مورد نیاز است).

گام‌های یک پویش

داده‌کاوی نیز مانند سایر مشتقات فناوری اطلاعات که دارای اجرایی مانند هوش مصنوعی است هر روز روش‌ها و گونه‌های جدید را به خود می‌بیند اما به‌صورت ساده دارای چند مرحله است.

گام یک: تشکیل انبار داده

در ابتدا داده‌ها باید در محیطی پویا و مستمر قرار داده شوند. این محیط باید دارای یکپارچگی و انعطاف محاسباتی بالا باشد تا همواره قابل پویش مانده و کارایی آن با افزایش حجم اطلاعات کم نشود.

گام دو: کاندید کردن داده‌ها

از آنجایی که آغاز و پایان بی‌هدف محاسبات، دارای هزینه بسیاری است، در بیشتر موارد داده‌هایی را انتخاب می‌کنند و سرشاخه جستجویی قرار می‌دهند که قرار است درباره ‌آن‌ها اطلاعاتی به ما بدهد.

گام سوم: جایگزینی داده‌ای

داده‌ها کمتر به‌عنوان یک واحد مستقل وارد سیستم می‌شوند و در بیشتر موارد دارای خواصی رشته‌ای هستند (مانند یک اسم و فامیل). حال برای بررسی این داده‌ها و عناصر تشکیل‌دهنده ‌آن‌ها باید این داده‌ها از داخل هم جداسازی شوند که در برخی موارد بسیار هزینه‌بردار است و در برخی موارد با تغییر نوع ‌آن‌ها، کار انجام می‌شود (مانند تبدیل تاریخ به یک عدد).

گام چهارم: جستجو

این مرحله، آغاز پویش و داده‌کاوی است که در آن داده‌ها مورد ارزیابی و جستجو قرار می‌گیرند تا دانش هفته در ‌آن‌ها استخراج شود. این کار با الگوریتم‌های مختلفی انجام می‌شود که در برخی موارد از قبل تعریف شده‌اند و در برخی موارد توسط داده‌کاو برای تشکیل مدل اطلاعاتی تعریف می‌شود.

گام پنجم: بررسی نتایج

در این مرحله نتایج داده‌کاوی بررسی می‌شود و بر اساس داده‌هایی که انتخاب شده بودند، اطلاعات سنجیده می‌شود تا نتایج کاربردی جدا شده و مورد استفاده قرار گیرند. از جمله رویه‌هایی که در داده‌کاوی‌های پیشرفته استفاده می‌شود، الگوریتم‌های ژنتیک و شبکه‌های عصبی را می‌توان نام برد. شبکه‌های عصبی به‌علت کارآمدی در حل مسائل پیچیده و بزرگ مورد استفاده‌اند و کاربرد الگوریتم‌های ژنتیک در داده‌کاوی برای جستجو و ساختن یک مدل بهینه در میان مدل‌های به‌دست آمده است، به این ترتیب که مدل‌های اولیه روی کرومزوم‌هایی قرار می‌گیرند و با رقابت بر سر انتقال صفات به نسل بعد، بهترین مدل به کاربر ارائه می‌شود.

انبار داده، خانه‌ای برای داده‌ها

همان‌طور که گفتیم، ابتدا داده‌ها باید در محیطی پویا و مستمر قرار داده شوند و این محیط جایی است به‌نام «انبار داده».

داده‌های موجود در انبار داده‌ها از سیستم‌های عملیاتی متنوع داخلی و خارجی تغذیه می‌شوند. تمام عملیاتی که در قسمت قبل گفته شد، داخل این انبار داده انجام می‌شود و تمام مراحل همگون (به‌شکل هم درآوردن داده‌ها)، قبل و بعد از یکپارچه‌سازی در این محیط انجام می‌شود. در انبار داده‌ها، رفتار داده‌ها مهم‌تر از مقدار عددی ‌آن‌هاست، چرا که روند تغییرات داده‌ها نشان از تغییر و تسهیل‌کننده تحلیل روی روند کسب‌وکار است. برای درک مفهوم و پیچیدگی انبار داده، پیچیدگی مفهوم پایگاه داده را در نظر بگیرید. حال آن را به تعداد ابعاد انبار داده در خود ضرب کنید(این کار نشدنی نیست.)

انبار مجازی

نوع خاصی از انبار داده وجود دارد که موقت و به‌نوعی پرتابل طراحی می‌شود. این انبار داده که در اصطلاح آن را مجازی می‌نامند، دارای خاصیت بررسی سریع اطلاعات است ولی در آن داده‌ها ذخیره یا کپی‌کاری نمی‌شوند. در این نوع پایگاه داده، رفتار داده‌ها در مقاطع بسیار کوتاه سنجیده می‌شود ولی در این نوع از تفسیر داده‌ها کیفیت اطلاعات خروجی تضمین نمی‌شود و معمولا برای سنجش تغییرات کلی به‌کار می‌رود.

منابع

[1] گفتگو نگارنده با پرفسور غلامرضا نخعی‌زاده (مدیر گروه دانشگاه کالسروهه و مدیر اسبق بخش داده‌کاوی شرکت بنز آلمان)

[2] Robert Orfali, Dan Harkey, Jeri Edwards

(1998), Client/Server Survival Guide

"Review of Data mining", The American

Statistician, 52, 112-118.

[3] Jeffery W. Seifert (2004), “Data Mining:

An Overview”, Analyst in information

science and technology policy.

[4] Hand. D.J (1998): "Review of Data mining",

The American statistician, 52-118.

پی‌نوشت