گفت‌وگو با دکتر سحر رحمانی، محقق ایرانی دانشگاه وسترن انتاریو کانادا که در حوزه کلان داده‌ها مطالعه می‌کند

داده‌کاوی در دریای اطلاعات

سال‌ها پیش برای انجام یک کار تحقیقاتی ابتدا باید زمان زیادی صرف جمع‌آوری اطلاعاتی می‌شد که در روند کار به آنها نیاز داشتیم. جست‌وجوی میدانی و مطالعه ده‌ها عنوان کتاب در نهایت اطلاعات اندکی از چیزی که نیاز داشتیم را در اختیار ما قرار می‌داد. بسیاری از فعالیت‌ها هم به‌دلیل کمبود اطلاعات کافی برای همیشه ناتمام می‌ماند یا نتایج رضایت بخشی به‌دنبال نداشت.
کد خبر: ۹۹۴۹۸۸
داده‌کاوی در دریای اطلاعات

اما دنیای امروز دنیای داده‌های بیش از توان تجزیه و تحلیل انسان است. ما در عصر حاضر با یک جست‌وجوی ساده در فضای مجازی یا حتی جست‌وجو برای یافتن پاسخ سوالی ساده در دنیای واقعی با حجم زیادی از اطلاعات روبه‌رو می‌شویم که قادر به درک و استفاده از همه آنها نیستیم. گرچه هنوز زمان زیادی صرف گرفتن داده‌ها می‌شود، اما موضوع حائز اهمیت، نحوه دسته‌بندی و مدیریت درست این داده‌هاست که کمک می‌کند از اطلاعات مناسب برای فعالیت مورد نظر استفاده کنیم. علاوه بر این مدیریت داده‌های کلان در ابعاد گوناگونی زندگی ما را متحول کرده است. برای مثال کلان داده (Big Data) اکنون، به ابزاری کارآمد برای هدف‌گذاری بازاریابی و تشخیص الگوی مصرف مشتری تبدیل شده است.

کلان‌داده به تشخیص علاقه‌مندی و نیاز مشتری کمک می‌کند و رفتار افراد را با جست‌وجو در داده‌های بی‌شمار پیش‌بینی می‌کند.

دکتر سحر رحمانی، محقق رشته نجوم دانشگاه وسترن آنتاریو کانادا روش‌های تجزیه و تحلیل کلان داده را در علم نجوم که یکی از رشته‌هایی است که با داده‌های کلان سر و کار فراوان دارد، به‌کار گرفته است.

کار با کلان داده و تربیت ماشین‌ها برای یادگیری روش‌های تجزیه و تحلیل بی‌شک راه را برای کشف کاربردهای بیشتر کلان داده و استفاده از آنها در زندگی باز می‌کند.

کلان داده‌ها چطور تحلیل اطلاعات و نحوه نگاه ما به دنیای بالای سرمان را متحول کرده است؟

علم نجوم با کلان داده سر و کار دارد. ما داده‌های بسیاری از کهکشان‌های متفاوت و نقاط مختلف در کهکشان‌های نزدیک در دست داریم. در مدل کلاسیک نوع کهکشان‌ها (بیضوی، حلقوی، مارپیچی و...) را با اطلاعات طیف‌سنجی آنها شناسایی و دسته‌بندی می‌کنند. در مدلی که ما استفاده کردیم، علاوه بر دسته‌بندی دقیق، کهکشان‌های شبیه مشخص می‌شود. این دسته‌بندی نشان می‌دهد کهکشان‌های قدیمی کنار هم و کهکشان‌هایی که در حال تولید ستاره‌های جدید هستند نیز کنار هم قرار می‌گیرند.

وقتی داده‌ها زیاد است دیگر نمی‌توان به روش‌های کلاسیک آنها را مقایسه کرد و تک‌به‌تک راجع به نوع آنها تصمیم گرفت. اما در این سیستم زیر یک دقیقه می‌توان انواع کهکشان‌ها و استثناها را شناسایی کرد و در دسته‌بندی‌های جدید خطاها بدرستی پیدا می‌شود. ما این داده‌ها را مطالعه کردیم و بررسی کردیم که این نوع دسته‌بندی‌ها چطور می‌تواند به دسته‌بندی‌های قدیمی و تصحیح آنها کمک کند.

در گذشته این کار چطور انجام می‌شد؟

در مدل‌های قدیمی، خطا بیشتر و دسته‌بندی‌ها کمتر بود؛ به همین دلیل اگر نمونه‌ای بین دو دسته بود، حتما باید در یک دسته قرار می‌گرفت. از طرف دیگر دسته‌بندی جدید به ما این فرصت را می‌دهد اگر نوعی کهکشان وجود داشته باشد که تا به حال ندیده باشیم، بتوانیم در این سیستم آن را شناسایی کنیم.

برای مثال فرض کنید قرار است افراد یک استادیوم صدهزار نفری را دسته‌بندی کنیم. در مرحله اول برنامه نخستین تفاوت واضح را پیدا می‌کند. تفاوت‌هایی مثل ویژگی‌های ظاهری، سن، قد و... می‌تواند تقسیم‌بندی‌های مختلف را بسازد. این تقسیم‌بندی می‌تواند این‌قدر بزرگ شود که هر کس در یک دسته قرار گیرد. از یک جایی به بعد وقتی در هر دسته تعداد بسیار کمی قرار می‌گیرند یا دسته‌بندی‌های بسیاری خالی می‌مانند، دیگر تقسیم‌بندی منطقی نیست. هر اندازه‌گیری هم مقداری خطا دارد و وقتی دسته‌بندی‌ها خیلی جزئی می‌شود، خطا زیاد می‌شود.

چه لـزومی دارد این داده‌ها تقسیم‌بندی شود و هـرکدام وارد دسته‌بندی‌های جداگانه و تفکیک شده شود؟

داده گرفتن از کهکشان‌ها کار ساده‌ای نیست و وقت تلسکوپ‌ها ارزشمند و هزینه‌بر است. تقسیم و تحلیل داده‌ها به ما این امکان را می‌دهد تا هدفمندتر به ستاره‌های کهکشان نگاه کنیم. با تحلیل داده‌ها می‌توانیم بفهمیم چه نوع کهکشان‌هایی را بررسی کنیم تا اطلاعاتی که می‌خواهیم را به ما بدهند، یا چه نوع سیاره‌هایی را رصد کنیم که احتمال وجود حیات در آنها بیشتر است. علاوه بر این سیستم‌های داده‌کاوی داده‌های بی‌ربط را پیدا می‌کند و در وقت و هزینه صرفه‌جویی می‌شود.

در کلان داده‌ها باید به موضوعات ذخیره‌سازی، انتقال، جست‌وجو، تجزیه و تحلیل داده‌ها توجه شود و کسی که با کلان داده‌ها سر و کار دارد همه این موارد را در نظر می‌گیرد. از یک جایی به بعد چون داده‌ها بسیار زیاد است، پیدا کردن یک داده مشخص کار بسیار سخت و وقتگیری می‌شود.

بعد از دسته‌بندی این داده‌ها و قرار گرفتن هر داده در جای خود، چطور می‌توان از آنها استفاده کرد و محققان چطور می‌توانند از کلان داده‌ها برای تجزیه و تحلیل اطلاعات کمک بگیرند؟

یکی از اهداف علم این است که بر پایه یک نظریه بتوان پدیده‌های طبیعی را پیش‌بینی کرد. اگر فرض‌هایی به دست می‌آید، با این فرض‌ها چه حکمی می‌تواند برقرار باشد. قدرت پیش‌بینی به ما می‌آموزد که اتفاق بعدی چه خواهد بود. هدف علم قدرت ارائه پیش‌بینی است و همین است که می‌توان از آن در صنعت استفاده کرد و برای مثال تلفن هوشمند ساخت.

داده کاوی ارتباط و همبستگی اطلاعات مختلف با یکدیگر را بررسی می‌کند و افرادی باید وجود داشته باشند که با هوش انسانی بتوانند همبستگی‌های واقعی و تصادفی را تشخیص دهند، چون داده کاوی فقط روابط را نشان می‌دهد.

هنگام جمع‌آوری مطلب در وبگاه‌‌های جست‌وجوگر نتایجی که برای افراد مختلف به دست می‌آید متفاوت است و بستگی به جست‌وجوهای قبلی و الگوهای زندگی فردی دارد.

ماشین‌های هوشمند چطور می‌توانند در تحلیل کلان داده به انسان کمک کنند؟

نظریه دادن در مورد بعضی مسائل ساده است و با مشاهده و آزمایش قابل دستیابی است، اما هنگامی که داده‌ها بسیار زیاد می‌شود، دیگر روش‌های معمول تحلیل و تشخیص همبستگی‌ها و نظریه دادن جواب نمی‌دهد و نیاز به تحلیل کلان داده‌ها و تقسیم‌بندی و یادگیری ماشینی داریم. قدرت تشخیص چهره در تلفن‌های همراه، امکان مکالمه با دستگاه و... همه از نمونه‌های یادگیری ماشینی است. برنامه‌هایی که قدرت تشخیص صدا را دارند، اوایل ممکن است صدا را تشخیص ندهند یا به دلیل تفاوت لهجه مفاهیم را اشتباه تشخیص دهند، اما با چند بار ویرایش و تمرین دادن سیستم، برنامه می‌تواند منظور انسان را به مرور زمان یاد بگیرد.

برای یادگیری ماشینی یک الگوریتم می‌سازیم و به یک ماشین، داده‌هایی می‌دهیم که به ارتباط و همبستگی آنها واقف هستیم و چند بار ارتباط‌هایی که ماشین پیدا می‌کند را تصحیح می‌کنیم تا در نهایت به ارتباط مطلوب دست یابد.

بعد از آن ماشین آن‌قدر هوشمند شده است که تمام ارتباط‌هایی که در نظر ما وجود دارد را پیدا کند. اکنون این ماشین به ما قدرت پیش‌بینی می‌دهد و اگر داده‌های جدید پیدا کنیم و همبستگی‌های آن را ندانیم، ماشین همبستگی‌ها و به معنای دیگر قدرت پیش‌بینی به ما می‌دهد. این قدرت پیش‌بینی امکان تحلیل و استفاده از داده‌های جدید را به ما می‌دهد.

کلان داده‌ها چه نقشی در زندگی ما بازی می‌کنند؟

وقتی چند میلیون نفر در یک شبکه اجتماعی عضو هستند، یکی از مشکلات پیدا کردن داده‌های مرتبط به این افراد در میان حجم عظیم داده‌هاست. مشخصات این افراد باید جایی تبدیل به کد و رمزگذاری شود و جایی ذخیره شود، وقتی فردی می‌خواهد وارد صفحه شخصی خود در هر شبکه اجتماعی یا وبگاهی شود، سیستم باید این مشخصات و اطلاعات را جست‌وجو و بازیابی کند. در عین حال سیستم باید آمادگی این را داشته باشد که بر فرض همه افراد بخواهند همزمان وارد صفحه شخصی خود شوند و مشکل امنیتی پیش نیاید.

حالا فرض می‌کنیم در برنامه‌هایی که برای خرید کالا طراحی می‌شوند، هدف، رسیدن به بیشترین میزان فروش است. یکی از روش‌ها برای رسیدن به این خواسته تبلیغات است و تبلیغات هدفمند تاثیرگذاری بیشتری دارد. اگر این برنامه بتواند اطلاعاتی از علاقه‌مندی‌های مشتری به‌دست آورد، می‌تواند هدفمند تبلیغ کند. کلان داده به برنامه مورد نظر کمک می‌کند علاقه‌مندی گروهی از افراد را کشف کند، سپس برنامه، محصولاتی براساس علاقه‌مندی‌های مشترک به افراد پیشنهاد می‌کند و احتمال این که مشتری از آن محصولات پیشنهادی استقبال کند هم زیاد است.

مثال دیگر در مورد برنامه‌هایی است که پخش فیلم و ویدئوهای آنلاین دارند. در این وبگاه‌‌ها و برنامه‌ها نیز ویدئوهای پیشنهادی به روش داده‌کاوی به افراد پیشنهاد می‌شود. میلیون‌ها نفر از این وبگاه‌ها و برنامه‌ها استفاده می‌کنند و تحلیل و تقسیم‌بندی این داده‌ها برای انسان سخت و زمان‌گیر است.

کلان داده چیست و در دنیای امروز چه ارزشی دارد؟

کلان داده (Big data) از همه چیزهایی که همواره اطراف ما قرار گرفته است، به وجود می‌آید.

همه فرآیندهای دیجیتال و مبادلات صورت گرفته در شبکه‌های اجتماعی کلان داده تولید می‌کنند و سیستم‌ها، حسگرها و تلفن‌های همراه و دستگاه‌های مشابه، این داده‌ها را مخابره می‌کنند.

کلان داده از منابع بسیاری تشکیل می‌شود که با سرعت، حجم و تنوع بسیار زیادی یکجا جمع می‌شوند. ما برای استخراج مفاهیم معنادار از این حجم عظیم داده نیاز به پردازشگرها و مهارت تجزیه و تحلیل داریم. کلان داده می‌تواند روش‌های تعامل مردم با سازمان‌ها را تغییر دهد و کارفرمایان را به سمت مسیرهای تازهای برای گرفتن تصمیمات مهم با کمک ارزش این داده‌ها هدایت کند. دانشمندان و تحلیلگران کلان‌داده‌ها می‌گویند ما به مهارت‌های جدید برای تحت کنترل در آوردن قدرت کلان داده نیاز داریم و باید با توسعه روش‌های تجزیه و تحلیل و تمرکز بر چالش‌های کلان داده شیوه‌های نوین تجارت و کار با کلان داده را به دست آوریم.

سپیده شعرباف

newsQrCode
ارسال نظرات در انتظار بررسی: ۰ انتشار یافته: ۰

نیازمندی ها