شخم‌زدن داده‌ها با موتور جست‌وجوی جدید گوگل

شرکت گوگل بتازگی از یک موتور جست‌وجوی جدید رونمایی کرد. این موتورجست‌وجو به محققان در پیدا کردن داده‌های آنلاینی که به‌طور رایگان قابل استفاده هستند کمک می‌کند. مخاطبان این موتور جست‌وجو، دانشمندان، روزنامه‌نگاران داده‌محور، کارشناسان داده یا هر فرد دیگری اعلام شده است. این موتور جست‌وجو که «دیتا سِت سرچ»(Dataset Search) نام دارد، اکنون در کنار دیگر موتورهای جست‌وجوی اختصاصی مانند موتورهای جست‌وجوی اخبار و تصاویر در دسترس است و می‌تواند فایل‌ها و پایگاه‌های داده را بر اساس این‌که مالکان، چگونه آنها را طبقه‌بندی کرده‌اند بیابد. دیتاست سرچ، محتوای فایل‌ها را آن‌گونه که موتورهای جست‌وجو درمورد صفحات وب انجام می‌دهند، نمی‌خواند. کارشناسان معتقدند این موتور جست‌وجو می‌تواند به میزان چشمگیری به موفقیت جنبش «داده باز» که هدف از آن دسترسی و استفاده آزاد عموم مردم از مجموعه‌ای از داده‌ها و بازنشر آنها بدون هیچ‌گونه محدودیتی است، کمک کند.

کد خبر: ۱۱۶۶۴۰۲

موسسات دولتی، ناشران علمی، موسسات تحقیقاتی و حتی هر فرد محققی هزاران منبع داده باز را در سراسر جهان نگهداری می‌کند که حاوی میلیون‌ها مجموعه داده است. ناتاشا نوی، دانشمند علوم رایانه در هوش مصنوعی گوگل در کالیفرنیا می‌گوید: محققانی که می‌خواهند بدانند چه نوع داده‌هایی در دسترس است یا امیدوار به یافتن داده‌هایی هستند که از وجود آنها اطلاع دارند، اغلب باید به شایعات اعتماد کنند. نوی می‌افزاید این مشکل بویژه برای محققان تازه‌کاری که تاکنون به شبکه‌ای از ارتباطات حرفه‌ای متصل نشده‌اند، بسیار جدی است.

جست‌وجوی طبقه‌بندی شده

موتورهای جست‌وجوی معمولی در دو مرحله عمده کار می‌کنند: نخست با جست‌وجو در اینترنت، صفحات در دسترس را فهرست می‌کنند و در مرحله دوم این صفحات را طوری رتبه‌بندی می‌کنند که وقتی کاربر اصطلاح مورد نظرش را جست‌وجو می‌کند، نتایج مرتبط ارائه شوند. نوی و همکارش دن بریکلی ژانویه 2017 در وبلاگی در این باره نوشتند برای کمک به موتورهای جست‌وجو در فهرست‌بندی مجموعه داده‌های موجود، کسانی که دارای مجموعه داده‌ها هستند، باید آنها را با استفاده از کلمات استاندارد (Schema.org ابتکار عمل گوگل و سه موتور جست‌وجوی دیگر یعنی مایکروسافت، یاهو و یاندکس) برچسب‌گذاری کنند. تیم گوگل همچنین یک الگوریتم ویژه برای رتبه‌بندی داده‌ها در نتایج جست‌وجو ایجاد کرد.

مارک هانل، مدیر اجرایی یک شرکت اشتراک‌گذاری داده در لندن می‌گوید با توجه به برتری گوگل در جست‌وجوی وب، خبرهایی که این شرکت به اکوسیستم داده‌ها منتقل می‌کرد، باعث شد بازیگران عمده در این زمینه سرعت همگام شده و ابرداده‌های خود را استاندارد کنند. هانل می‌افزاید تا ماه نوامبر / آبان، همه دانشگاه‌هایی که ما با آنها کار می‌کنیم داده‌های خود را برچسب‌گذاری می‌کنند. این کار تحول عمده‌ای در داده‌های باز محیط‌های دانشگاهی ایجاد خواهدکرد. موسسات سرمایه‌گذار، گاهی خواهان در دسترس بودن داده‌های تحقیقات هستند و اگر با شروع به کار دیتا ست سرچ، اطلاعات به طرز موثری قابل بازیابی باشند این موسسات به هدف نهایی خود خواهند رسید. به گفته نوی، این موتور جست‌وجو کاری را که سرمایه‌گذاران قصد انجام آن را داشتند قانونی می‌کند.

مشارکت سازمانی

یکی از پیشگامان حمایت از گوگل، سازمان ملی اقیانوسی و جوی آمریکا (NOAA) است. آرشیو این سازمان شامل حدود 70 هزار مجموعه داده است.

این منابع به بیش از 35 پتابایت داده اضافه می‌شوند که معادل محتوای 35هزار هارد دیسک معمولی است. برای شروع کار موتور جست‌وجوی دیتاسِت سرچ، همکاری صاحبان داده، یک مرحله بسیار مهم به شمار می‌آید. هرچند این سیستم در آینده ممکن است پیچیده‌تر شود، اما گوگل در حال حاضر هیچ برنامه‌ای برای خواندن داده‌ها یا تجزیه و تحلیل آنها - آن‌گونه که درمورد صفحات وب یا تصاویر انجام می‌دهد- ندارد. نوی می‌گوید چنین ابزار جست‌وجویی مناسب ابرداده‌هایی است که انتشاردهندگان داده‌ها مایل به ارائه آنها هستند. همانند گوگل اسکالر، موتور جست‌وجوی دیتاست سرچ در حال حاضر، جست‌وجوی خودکار یا رابط برنامه‌نویسی کاربردی (API) ارائه نمی‌کند. اما گوگل اعلام کرده است احتمال دارد این قابلیت را در آینده اضافه کند. به گفته نوی با شروع استفاده محققان از دیتاست سرچ، گوگل تعامل آنها با این موتور جست‌وجو را بررسی کرده و از آن برای بهبود نتایج جست‌وجو استفاده می‌کند. همچنین به گفته نوی، گوگل فعلا برنامه‌ای برای پولی کردن خدمات ارائه شده ندارد. با تکامل
دیتا ست سرچ، این موتور جست‌وجو احتمالا با گوگل اسکالر ادغام می‌شود به‌طوری که نتایج جست‌وجو درمورد یک مطالعه خاص، به مجموعه داده‌های متناسب مرتبط شوند.