در مورد این نظریه حرف بسیار است، اما کلیت آن را میتوان پذیرفت، آنهم وقتی فکر کنید چه رخ خواهد داد وقتی یک روز و حتی یک ساعت خطوط انتقال اطلاعات از کار بایستند. چیزی که باعث شد موضوع بحث این هفته را به این موضوع اختصاص دهیم، تفکری بود که در یک واژه معنا میشد: انفجار اطلاعات.
برخی میگویند بهدلیل افزایش سرعت تولید و انتقال اطلاعات و رشد تصاعدی حجم اطلاعات، بهزودی پدیدهای رخ خواهد داد بهنام انفجار اطلاعات که در آن انسانها دچار سردرگمی و اختلال در زندگی میشوند.
اما این افراد و خیلیهای دیگر که از ایجاد اینهمه اطلاعات شگفت زدهاند، از یک موضوع ناآگاهاند و آن اینکه فناوری اطلاعات رخنهناپذیرتر از آن است که خودش موجب نابودی خودش بشود. یعنی کاربرد اصلی آن را که تولید علم است هرگز نباید فراموش کرد و علم بالاتر از اطلاعات و داده هاست.
شاخهای از علم را که بر پایه معنا بخشی به دادههای خام بنا شده است، دادهکاوی1 گویند که در آن دادهها با الگوریتمهایی خاص، بینهایت بار پردازش میشوند تا معانی مختلفی را بسازند. این روش را در یک مثال ساده اینگونه میتوان عینیت بخشید: فرض کنید هر داده یک مهره از جعبه بازی خانهسازی دوران کودکی شماست. در این بازی تعداد مهرهها محدود بود اما قرار دادن این مهرهها در جاهای مختلف، اشکال مختلفی ایجاد میکرد. دادهکاوی هم تقریبا همین کار را میکند و با کشف حالتهای مختلف ارتباط دادهها، آنها را معنادارتر میکند. در کل، باید بدانیم وقتی همه چیز برایمان معنا داشته باشد، دچار سردرگمی میان آنها نخواهیم شد و در نتیجه انفجار اطلاعات نخواهیم داشت.
تعریف
دادهکاوی که برخی آن را کشف دانش در پایگاه دادهها2 و نیز علم معنابخشی داده تفسیر کردهاند، خلاف تصور بسیاری، علم تازه و جدیدی نیست چراکه در مکانهای مختلف، از این علم بهاشکال گوناگون استفاده شده است که بهعنوان نمونه میتوان به دادهکاوی حدود 25سال پیش شرکت بنز آلمان اشاره کرد که با جمعآوری اطلاعات از نمایندگیها و تعمیرگاههای مختلف در نقاط مختلف آب و هوایی سراسر دنیا، بانک اطلاعاتی کاملی را در اختیار واحد تحقیق و توسعه خود قرار داد و بر اساس آن توانست تا امروز بهترین و پایدارترین تولید کننده خودرو باشد. از کارکردها و کاربردهای دادهکاوی در ادامه بیشتر خواهیم گفت.
در نگاه نخست میتوان گفت، پیشرفت کشورها در زمینههای مختلف و نگاه ویژه دولتها به مقوله الکترونیکی شدن و یکپارچگی سیستمها که نتیجه نفوذ استفاده از سیستمهای رایانهای در صنعت و ایجاد بانکهای اطلاعاتی بزرگ توسط ادارات مختلف و نیز استفاده روزافزون بانکها و بخش خصوصی است، نیاز به استفاده از این علم را هر روز بیش از پیش نشان میدهد. دادهکاوی علمی است که با تلفیق علم آمار، فناوری پایگاه داده، فناوری هوش مصنوعی3، یادگیری ماشین4 و تکنولوژیهای دیگر رویای کشف رازهای پنهان را محقق میکند.
برای شناخت معنای دادهکاوی در مقام تعریف، میتوان گفت دادهکاوی استخراج دانش و اطلاعات پنهان در یک یا چندین پایگاه داده است. این کار با استفاده از تجزیه و تحلیل ماشینی دادههای ذخیره شده در یک مجموعه از پایگاههای داده برای پیدا کردن الگوهای مفید و تازه و قابل استناد انجام میشود. نباید تصور کرد که این علم تنها کاربردهای سراسری و بزرگ دارد، چون این علم میتواند در کارهای کوچک و حتی در طرحهای خوداشتغالی که در حد یک کارگاه کوچک شکل میگیرد استفاده شود. دادهکاوی در هر جایی که اطلاعات بهصورت بانک اطلاعاتی ذخیر شوند، میتواند به کار رود. در نهایت، کاربرد این علم در یک کلام این است: «پشتیبانی از تصمیم.»
دو نمونه از کاربرد داده کاوی
نمونه اول: تصور کنید یک شرکت خودروسازی محصولاتش را به چندین منطقه آب و هوایی مختلف میفرستد. پس از مدتی شکایتی درباره خرابی قطعهای خاص در یک سری از تولیدات دریافت میکند. اگر مدیر مجموعه خودروساز، بهروش ساده بخواهد به این موضوع رسیدگی کند، باید اول خسارت مشتریان را بپردازد و بعد کسانی را که در این مشکل نقش داشتهاند توبیخ کند، اما این روش حتما درست نیست و با استفاده از دادهکاوی اینگونه میتوان به موضوع رسیدگی کرد که: اطلاعات مربوط به محصولات معیوب اعم از نوع عیب، فاصله زمانی و مکانی فروش تا محل استفاده و نیز شرایط محیطی را در یک پایگاه داده جمع کند و با استفاده از آن به این نتیجه برسد که آیا شرایط محیطی در این موضوع دخیل بوده است؟ این بررسی میتواند نشان دهد که محصولات معیوب در ناحیهای بیابانی که جادههای آن دارای سطح بالاتری از نمک هستند تردد داشتهاند یا نه و آیا این موضوع باعث معیوب شدن خودرو شده است یا خیر؟
نمونه دوم: در یک فروشگاه لوازم خانگی، پس از دادهکاوی مشخص میشود که درصدی از مشتریان پس از خرید تلویزیون، همان روز میز تلویزیون هم خریداری کردهاند. پس مالک فروشگاه میتواند تصمیم بگیرد که براساس موجودی تلویزیون، میزهای متناسب با آن نیز برای عرضه در فروشگاه سفارش داده شود و این میزها دقیقا در کنار تلویزیونها چیده شوند تا مشتری به سهولت و با امکان انتخاب بهتر، خرید بیشتری انجام دهد. این روش میتواند سود بهتری برای مالک فروشگاه داشته باشد.
با توجه به این نمونهها به این نتیجه میرسیم که این نوع بررسیها میتواند در تهیه مواد اولیه نیز تاثیر بگذارد و این یعنی یکپارچگی سازمان5. کاربرد دادهکاوی در مدیریت فروش را میتوان اینگونه تفسیر کرد که چه چیزی، به کدام مشتری، در چه زمانی و از طریق چه راهی ارایه شود؟
تحلیل آماری یا داده کاوی؟
بسیاری در نگاه اول دادهکاوی را همان تحلیل آماری میدانند، اما این درست نیست و دادهکاوی چیزی فراتر از آمار است و البته باید دانست که دادهکاوی، هم علمی بر آمده از آمار است و هم از آمار در کارهای خود استفاده میکند.
هر چند دادهکاوی شباهتهایی به تحلیل آماری دارد، ولی دادهکاوی از جهات زیادی با آمار متفاوت است و مزیتهای زیادی نسبت به آمار دارد. یکی از اصلیترین تفاوتهای دادهکاوی با تحلیلهای آماری این است که در آمار، ما فرضیهای طرح میکنیم و با استفاده از تحلیلهای آماری به اثبات یا رد فرضیه میپردازیم اما دادهکاوی به فرضیه احتیاجی ندارد. در حقیقت، ابزار دادهکاوی فرض میکند که خود شما هم نمیدانید به دنبال چه میگردید و این نکتهای است که باعث میشود کارآمدی دادهکاوی در مواقع بروز مشکل، بهکمک بیاید و دلایل نامعلوم مشکلات را برایمان روشن کند.
برای مثال، در آمار فرض میشود که 2گروه فاصلهای باهم ارتباط دارند سپس با استفاده از ضریب همبستگی پیرسون مشخص میکنیم که ارتباط وجود دارد یا خیر؟ ولی دادهکاوی بدون توجه به اینکه ما اینگونه فرضی داشته باشیم یا نه، با کاوش میان دادهها ارتباط پنهان و معنادار را به اطلاع ما میرساند. تفاوت بعدی آمار و دادهکاوی در این است که آمار فقط میتواند از دادههای عددی استفاده کند، ولی دادهکاوی از دادههای غیرعددی هم استفاده میکند.
منابع
[1] گفتگو نگارنده با پرفسور غلامرضا نخعیزاده (مدیر گروه دانشگاه کالسروهه و مدیر اسبق بخش دادهکاوی شرکت بنز آلمان)
[2] Robert Orfali, Dan Harkey, Jeri Edwards
(1998), Client/Server Survival Guide
"Review of Data mining", The American
Statistician, 52, 112-118.
[3] Jeffery W. Seifert (2004), “Data Mining:
An Overview”, Analyst in information
science and technology policy.
پینوشتها
1. Data mining
2. Database
3. Artificial Intelligence (AI)
4. Machine learning
5. Integration of organization
سعید نوری آزاد
در تپش این هفته، ماجرای فریب و تعرض در پوشش عرفانهای دروغین و رمالی را بررسی کردیم