به گزارش جام جم کلیک: نشریه تخصصی ساینس خبر داد: محققان دانشگاه فناوری ماساچوست MIT گزارش دادند تنها چهار مورد اطلاعات نه چندان روشن (تاریخها و محل چهار مورد از خریدها) برای شناسایی 90 درصد از افراد یک مجموعه دادهٔ سه ماهه از تراکنشهای 1.1 میلیون کاربر کافی است.
اگر کسی تنها کپی سه تا از رسیدهای اخیر شما یا یک رسید، یک عکس اینستاگرام از شما در حال قهوه خوردن با دوست تان و یک توییت دربارهٔ گوشیای که تازه خریدهاید به دست آورد، تا 94 درصد میتواند اطلاعات ثبتشدهٔ کارت اعتباریتان را از اطلاعات یکمیلیون نفر دیگر استخراج کند.
محققان میگویند که این واقعیت دارد، حتی در مواردی که هیچکس در مجموعه دادهها بر اساس نام، آدرس، شمارهٔ کارت اعتباری، یا چیز دیگری که اطلاعات شخصی تلقی شود شناسایی نشده باشد.
این گزارش دو سال بعد از تحلیل اطلاعات تلفنهای موبایل منتشر شده است. گزارش قبلی نیز حاوی نتایج مشابهی بود. ایو الکساندر دومونجوی، دانشجوی کارشناسی ارشد دانشگاه MIT در رشتهٔ علوم و هنرهای رسانهای که نویسندهٔ اول هر دو مقاله است چنین میگوید: «اگر آن را با چند مجموعه داده نشان دهیم، آنگاه احتمال درست بودن کلیاش بیشتر میشود. میتوانم تصور کنم چرا فرادادههای کارتهای اعتباری با دادههای متحرک فرق دارند یا معادل آناند.»
گروهی دیگر از متخصصان این حوزه در تحقیق به دومونجوی پیوستهاند. مجموعه دادههایی که این محققان به تحلیل آنها پرداختهاند شامل نامها و محلهای فروشگاهها و روزهایی است که خرید در آنها صورت گرفته است و میزان خرید نیز در زمرهٔ اطلاعات است.
خریدهای صورتگرفته با کارت اعتباری واحد همگی با شمارهٔ شناسایی اتفاقی واحدی علامتگذاری شدند. برای هر شمارهٔ شناسایی (هر مشتری در مجموعه داده) محققان خریدهایی را به طور اتفاقی انتخاب کردند و بعد مشخص کردند که در تاریخچهٔ خرید چه تعداد از دیگر مشتریان نکات دادهٔ مشابه وجود دارد.
در تحلیلی مستقل، محققان تعداد نکات داده برای هر مشتری را از دو به پنج تغییر دادند. بدون اطلاعات قیمت، دو نکتهٔ داده همچنان برای شناسایی بیش از 40 درصد از افراد حاضر در مجموعه داده کافی بود. در دیگر سوی طیف، پنج نکته همراه با اطلاعات قیمت برای شناسایی همه کافی بود.
محققان مذکور تمام قیمتهایی را چند طبقهبندی ثابت قرار دادند و به لحاظ کارکردی یکسان تلقی کردند. بنابراین، مثلاً خرید 20 دلاری در یک فروشگاه در تاریخچهٔ خرید یک نفر معادل خرید 40 دلاری شخصی دیگر در همان فروشگاه در همان روز تلقی شد زیرا هر دو خرید در طیف 16 تا 49 دلار قرار میگرفتند.
این اقدام تلاشی بود برای نشان دادن عدم قطعیت تخمین میزان خرید از اطلاعات ثانویه، مانند عکس اینستاگرامی حاوی تصویر غذایی که فرد مصرف کرده است.
محدودهٔ هر طیف مبتنی بر درصد ثابتی از ارزش میانه بود: برای مثال، طیف 16 تا 49 دلار ارزش میانهٔ خریدها (32.50 دلار) به علاوهٔ یا منهای 50 درصد که به میزان دلار نزدیکتر گرد شده بود. حفظ خصلت ناشناس بودن در مجموعه دادههای بزرگ نگرانی مهمی است زیرا نهادهای خصوصی و عمومی به یکسان دادههای دیجیتالی گردآوریشده را منبعی برای کسب دیدگاههای بدیع میدانند.
فروشندگان میتوانند با تحلیل تاریخچهٔ کارتهای اعتباری، بدون دانستن هویت صاحب آنها، دربارهٔ سلیقهٔ مشتریان خود اطلاعات به دست آورند. اما اقتصاددانان نیز میتوانند از این تاریخچهها در مورد چیزهایی چون ارتباط تورم یا میزان صرف هزینه توسط مشتریان و سایر عوامل اقتصادی اطلاعات کسب کنند.
محققان MIT تأثیرات دادههای بزرگتر را نیز بررسی کردند. برای این کار به عمد دقت را پایینتر آوردند، به این امید که حریم خصوصی افراد حفظ شود و در عین حال امکان تحلیلهای مفید فراهم باشد.
این اقدام شناسایی افراد را مشکلتر میکند اما نه بیش از حد. حتی اگر مجموعه دادههای مشخصکنندهٔ هر خرید نشان دهد که این خریدها در بازهٔ زمانی یک هفته در یکی از 150 فروشگاه در منطقهای واحد صورت گرفته، چهار خرید (با 50 درصد عدم قطعیت در مورد قیمت) همچنان برای شناسایی بیش از 70 درصد از کاربران کافی است.
با همهٔ اینها، گروه محققان مذکور بر پیگیری کاربردهای مفید اجتماعی بزرگدادهها مصّرند و معتقدند که این دادهها توان بالقوهٔ زیادی دارند و باید مورد استفاده قرار گیرند.
البته باید خطرات بازشناسایی را نیز مد نظر قرار داد. همین گروه در تحقیقی دیگر در حال ایجاد سیستمی هستند که افراد را قادر میسازد تا دادههای تولیدشده از ابزار موبایل خود را در سرورهای امنی که خود برمیگزینند، ذخیره کنند.
منبع: فارس
دانشیار حقوق بینالملل دانشگاه تهران در یادداشتی اختصاصی برای جام جم آنلاین مطرح کرد
یک پژوهشگر روابط بینالملل در گفتگو با جام جم آنلاین مطرح کرد
در یادداشتی اختصاصی برای جام جم آنلاین مطرح شد
یک کارشناس روابط بینالملل در گفتگو با جامجمآنلاین مطرح کرد