در تپش این هفته، ماجرای فریب و تعرض در پوشش عرفانهای دروغین و رمالی را بررسی کردیم
دادهکاو کیست؟ هدفش چیست؟
شخصی که دادهکاوی میکند دادهکاو1 نام دارد. او میتواند داده را بگیرد، یک تصویر یا یک مدل از آن بسازد و بر اساس آن روابط پنهان میان اجزا را بیابد و شرح دهد. البته در نگاه اول دادهکاوی را ماشین و رایانهها انجام میدهند اما این محصول اولیه کار است و ترسیم الگوریتمها و آموزش ماشین بر اساس آن رویهها، عملا از دست ماشین برنمیآید.
برای داشتن تصویری ساده از کار یک دادهکاو، دستگاه پرس ماشینهای قدیمی را در نظر بگیرید که فارغ از نوع و جنس اشیای داخل دستگاه، تمام موجودیتها را با هم ترکیب میکند، موجودی جدید میسازد و با هربار تغییر زاویه میتواند از همان مجموعه یک موجودیت جدید استخراج کند.
نکته: در فناوری اطلاعات، مفهومی بهنام کسبوکار2 وجود دارد. همه کارهای دنیا از دید فناوری اطلاعات یک کسبوکار است و هر ارتباطی را میتوان یک کسبوکار دانست. بهعنوان مثال، همین مطالعه یا مراجعه شما به پزشک یا حتی درسخواندن یک تجارت است، اما این به آن معنا نیست که در تمام کارها پول جابهجا شود. باید توجه داشت مفهوم کسبوکار با دادوستد3 متفاوت است. از این رو در دنیای فناوری اطلاعات، همه مشتری محسوب میشوند و از آنجا که در دنیای امروز همه چیز حول محور اقتصاد میگردد، محور تمام علوم نیز مشتریمداری (نیازسنجی مردمی) است و دادهکاوی نیز در بیشتر موارد برای مدیریت ارتباط با مشتری و مدیریت زنجیره تامین به کار میرود.
چند نسل محاسبه
از سال 1950 که رایانه برای تحلیل و بارگزاری دادهها مورد استفاده قرارگرفت، تا امروز حجم اطلاعات و سرعت رشد آنها به اندازهای زیاد بوده است که هماکنون کسی از میزان اطلاعات ذخیره شده در پایگاههای داده در سراسر دنیا بهصورت دقیق اطلاعی ندارد. اما بیشک حجم اطلاعات تا حدی گسترش داشته است که تحلیلگران در بررسی و تحلیل این پایگاههای داده ناتوانند. برخی از پایگاه دادهها بهقدری بزرگ و پیچیده شدهاند که استخراج روابط و اطلاعات مفید پنهان شده در آنها واقعا فرای ظرفیت ذهن بشر است.
از همان سالهای اولیه، نیاز به تحلیل ماشینی دادهها و استخراج سریع و دقیق دانش نهفته در آنها احساس شد، اما از اولین کاربرد رایانه تا اولین گام برای تحلیل دادهها بهروشی جدیدتر، 33سال زمان لازم بود. شاید بتوان لوول (1983) را اولین شخصی دانست که گزارشی در مورد دادهکاوی با عنوان «مدلسازی فعالیتهای پویش اطلاعات» ارائه کرد.
لزوم ساخت سیستمهایی برای کاربردی شدن استفاده از اطلاعات و داده، زمانی احساس شد که دادهها در زمان مناسب مورد استفاده نبودند و اطلاعات، کیفیت لازم را نداشتند. پس کمکم سیستمها در 2بخش سیستمهای اطلاعاتی و عملیاتی دستهبندی شدند. گرچه تمام کار آنها از بیرون شبیه هم است اما سیستمهای عملیاتی از فعالیتهای روزانه کسبوکار پشتیبانی میکنند و برای پاسخگویی سریع به ارتباطات از پیش تعریف شده، مناسب هستند مانند سیستم خرید که باید قیمت کالا به سرعت نشان داده شده و پس از محاسبه هزینه مشتری، موجودی بهروز شود و در مقابل، سیستمهای اطلاعاتی برای مدیریت و کنترل کلان کسبوکار به کار میروند، مانند محاسبه سود و زیان و یا محاسبه نسبت جابهجایی کالا یا اطلاعات.
این سامانهها از تجزیهوتحلیل دادهها برای اتخاذ تصمیم درباره عملکرد آنی و آتی سازمان پشتیبانی میکنند و برای درخواستهای موردی طرحریزی شدهاند (یعنی برای هر سازمان نوع خاصی از آن مورد نیاز است).
گامهای یک پویش
دادهکاوی نیز مانند سایر مشتقات فناوری اطلاعات که دارای اجرایی مانند هوش مصنوعی است هر روز روشها و گونههای جدید را به خود میبیند اما بهصورت ساده دارای چند مرحله است.
گام یک: تشکیل انبار داده
در ابتدا دادهها باید در محیطی پویا و مستمر قرار داده شوند. این محیط باید دارای یکپارچگی و انعطاف محاسباتی بالا باشد تا همواره قابل پویش مانده و کارایی آن با افزایش حجم اطلاعات کم نشود.
گام دو: کاندید کردن دادهها
از آنجایی که آغاز و پایان بیهدف محاسبات، دارای هزینه بسیاری است، در بیشتر موارد دادههایی را انتخاب میکنند و سرشاخه جستجویی قرار میدهند که قرار است درباره آنها اطلاعاتی به ما بدهد.
گام سوم: جایگزینی دادهای
دادهها کمتر بهعنوان یک واحد مستقل وارد سیستم میشوند و در بیشتر موارد دارای خواصی رشتهای هستند (مانند یک اسم و فامیل). حال برای بررسی این دادهها و عناصر تشکیلدهنده آنها باید این دادهها از داخل هم جداسازی شوند که در برخی موارد بسیار هزینهبردار است و در برخی موارد با تغییر نوع آنها، کار انجام میشود (مانند تبدیل تاریخ به یک عدد).
گام چهارم: جستجو
این مرحله، آغاز پویش و دادهکاوی است که در آن دادهها مورد ارزیابی و جستجو قرار میگیرند تا دانش هفته در آنها استخراج شود. این کار با الگوریتمهای مختلفی انجام میشود که در برخی موارد از قبل تعریف شدهاند و در برخی موارد توسط دادهکاو برای تشکیل مدل اطلاعاتی تعریف میشود.
گام پنجم: بررسی نتایج
در این مرحله نتایج دادهکاوی بررسی میشود و بر اساس دادههایی که انتخاب شده بودند، اطلاعات سنجیده میشود تا نتایج کاربردی جدا شده و مورد استفاده قرار گیرند. از جمله رویههایی که در دادهکاویهای پیشرفته استفاده میشود، الگوریتمهای ژنتیک و شبکههای عصبی را میتوان نام برد. شبکههای عصبی بهعلت کارآمدی در حل مسائل پیچیده و بزرگ مورد استفادهاند و کاربرد الگوریتمهای ژنتیک در دادهکاوی برای جستجو و ساختن یک مدل بهینه در میان مدلهای بهدست آمده است، به این ترتیب که مدلهای اولیه روی کرومزومهایی قرار میگیرند و با رقابت بر سر انتقال صفات به نسل بعد، بهترین مدل به کاربر ارائه میشود.
انبار داده، خانهای برای دادهها
همانطور که گفتیم، ابتدا دادهها باید در محیطی پویا و مستمر قرار داده شوند و این محیط جایی است بهنام «انبار داده».
دادههای موجود در انبار دادهها از سیستمهای عملیاتی متنوع داخلی و خارجی تغذیه میشوند. تمام عملیاتی که در قسمت قبل گفته شد، داخل این انبار داده انجام میشود و تمام مراحل همگون (بهشکل هم درآوردن دادهها)، قبل و بعد از یکپارچهسازی در این محیط انجام میشود. در انبار دادهها، رفتار دادهها مهمتر از مقدار عددی آنهاست، چرا که روند تغییرات دادهها نشان از تغییر و تسهیلکننده تحلیل روی روند کسبوکار است. برای درک مفهوم و پیچیدگی انبار داده، پیچیدگی مفهوم پایگاه داده را در نظر بگیرید. حال آن را به تعداد ابعاد انبار داده در خود ضرب کنید(این کار نشدنی نیست.)
انبار مجازی
نوع خاصی از انبار داده وجود دارد که موقت و بهنوعی پرتابل طراحی میشود. این انبار داده که در اصطلاح آن را مجازی مینامند، دارای خاصیت بررسی سریع اطلاعات است ولی در آن دادهها ذخیره یا کپیکاری نمیشوند. در این نوع پایگاه داده، رفتار دادهها در مقاطع بسیار کوتاه سنجیده میشود ولی در این نوع از تفسیر دادهها کیفیت اطلاعات خروجی تضمین نمیشود و معمولا برای سنجش تغییرات کلی بهکار میرود.
منابع
[1] گفتگو نگارنده با پرفسور غلامرضا نخعیزاده (مدیر گروه دانشگاه کالسروهه و مدیر اسبق بخش دادهکاوی شرکت بنز آلمان)
[2] Robert Orfali, Dan Harkey, Jeri Edwards
(1998), Client/Server Survival Guide
"Review of Data mining", The American
Statistician, 52, 112-118.
[3] Jeffery W. Seifert (2004), “Data Mining:
An Overview”, Analyst in information
science and technology policy.
[4] Hand. D.J (1998): "Review of Data mining",
The American statistician, 52-118.
پینوشت
1. Data miner
2. Business
3. Commerce
سعید نوری آزاد
در تپش این هفته، ماجرای فریب و تعرض در پوشش عرفانهای دروغین و رمالی را بررسی کردیم
گزارش «جامجم» درباره دستاوردهای زبان فارسی در گفتوگو با برخی از چهرههای ادب معاصر
معاون وزیر بهداشت: