در تپش این هفته، ماجرای فریب و تعرض در پوشش عرفانهای دروغین و رمالی را بررسی کردیم
طبق آمار، حدود 80 درصد دادههای شغلی ساختاربندی ندارد، فایلهای واژهپرداز، سندهای صفحه گسترده و فایلهای پاورپوینت، صوتی، تصویری و از سنسورها گرفته تا دادههایی همچون سیاهه عملکرد و ورودیهای خارجی.
بهرهگیری از دادههای بیساختار
برخی سازمانها نیاز دارند دادههای بیساختار خود را تحلیل و نتایجی از آنها استخراج کنند. برخی از ابزارهای دادههای بزرگ، بخصوص آنهایی که مبتنی بر Hadoop است، از ابتدا برای تحلیل و مدیریت اطلاعات بیساختار طراحی شده است. دیگران، بیشتر در لایه عملکرد فعالیت کرده و فناوری انباره دادههایشان خیلی برای تحلیلها مناسب نیست.
عرضهکنندگان ابزارهای انباره داده و هوش شغلی در حال اضافه کردن ابزارهای مدیریت دادههای بیساختار در سرویسهای خود هستند و برخی سازمانهای IT در تلاشند دادههای بیساختار را به روشهای مختلف مدیریت دانش به دادههای ساختیافته تبدیل کنند، اما این پروسه میتواند از نظر هزینه زمانی و مالی گران باشد.
فراتر از این موضوع، شرکتهای بزرگ مدیریت دانش، امروزه برای تطابق با نیازهای جدید آمادگی کافی ندارند و نیاز به ابزارهای جدید تحلیلی و پشتیبانی از انواع جدید اطلاعات احساس میشود.
علاوه بر تحلیل سریع دادههای بیساختار و ساختیافته، شرکتها به ابزاری نیاز دارند تا بتوان چنین دادههای حجیمی را با نهایت سرعت به سیستم مدیریت دانش خود وارد کنند تا به پردازش و جستجوی دادهها بپردازند. در سازمانها و شرکتهایی که بهدنبال تحلیل دادههای زنده و تقریبا لحظهای هستند، مشکل سریعنبودن تحلیل دادههای بیساختار بیشتر به چشم میآید.
نیک میلمن، معاون ارشد موسسه AIMS، معتقد است: «با رشد استفاده از دادههای بیساختار، مساله تحلیل آنها به یک مشکل بزرگ تبدیل خواهد شد. دادههای نرمافزارهای مدیریت اسناد، اطلاعات همکاری میان کارمندان و مواردی از این دست قابل دستهبندی و ساخت یافتگی نیست. به اینها میتوان دیاگرامها، اسناد، عکسها و ویدئوها را نیز اضافه کرد. بهطور کلی هم نمیتوان دادههای بیساختار را فراموش کرد؛ چرا که این دادهها بهترین منبع برای تشخیص شیوه عملکرد شرکت خواهد بود.
خطرها و دامهای مدیریت دادههای بیساختار
اشتباهی که بیشتر شرکتها در ابتدای ورود به مقوله دادههای بیساختار مرتکب میشوند، انتظار جواب گرفتن سریع است. یک شغل با چند چالش، از جمله کیفیت دادهها، طبقهبندی دادهها، ترکیب دادههای بیساختار و ساخت یافته و حجم عظیمی از اطلاعات مواجه است.
برای حل این چالشها باید تغییراتی بنیادین در حوزه نرمافزاری به وجود آورد تا از دیتابیسها و ابزارهای تحلیل جدید استفاده شود. انتقال به سیستمی کاملا نو برای پردازش دادههای بیساختار (که میتواند Cloud باشد) خود چالش بزرگی است؛ زیرا میتواند مدیریت را مجبور کند تا Hadoop یا MapReduce سفارشی شود. علاوه بر تمام این موارد، باید درک کافی از انواع اطلاعاتی که سازمان به دنبال تحلیل آنهاست، به وجود بیاید تا بتوان اطلاعاتی مفید از دادههای روی هم انباشته شده استخراج کرد.
میلمن همچنین معتقد است: «وقتی یک کار به سمت فضای آنلاین میرود، اتفاقات زیادی بهطور بالقوه میتواند رخ بدهد. میتوان در دنیای آنلاین تجربیاتی بهدست آورد که در فضای دیگر ممکن نیست.»
اگر به کوئریهای بهکار رفته در دیتابیسها بیشتر اندیشیده شود، جستجوها بدقت انجام میشود و نتایج استخراج شده از دیتابیس دقیقتر خواهد بود. این قانون برای دیتابیسهای ساختیافته و بیساختار صادق است.
پردازش اطلاعات از طریق اینترنت، منابع رایانش ابری و استفاده از منابع دادهای آنلاین مجموعه جدیدی از گزینهها را پیش پای تحلیل دادههای بیساختار قرار میدهد.
امروزه سرویسهایی چون Firehose توییتر، توسط شرکتهای بسیاری استفاده میشود تا پخش و توزیع محصولات و همچنین استراتژیهای لاجستیک را بخوبی درک و پیاده کنند.
محمدرضا قربانی
در تپش این هفته، ماجرای فریب و تعرض در پوشش عرفانهای دروغین و رمالی را بررسی کردیم
گزارش «جامجم» درباره دستاوردهای زبان فارسی در گفتوگو با برخی از چهرههای ادب معاصر
معاون وزیر بهداشت: