شخم‌زدن داده‌ها با موتور جست‌وجوی جدید گوگل

شرکت گوگل بتازگی از یک موتور جست‌وجوی جدید رونمایی کرد. این موتورجست‌وجو به محققان در پیدا کردن داده‌های آنلاینی که به‌طور رایگان قابل استفاده هستند کمک می‌کند. مخاطبان این موتور جست‌وجو، دانشمندان، روزنامه‌نگاران داده‌محور، کارشناسان داده یا هر فرد دیگری اعلام شده است. این موتور جست‌وجو که «دیتا سِت سرچ»(Dataset Search) نام دارد، اکنون در کنار دیگر موتورهای جست‌وجوی اختصاصی مانند موتورهای جست‌وجوی اخبار و تصاویر در دسترس است و می‌تواند فایل‌ها و پایگاه‌های داده را بر اساس این‌که مالکان، چگونه آنها را طبقه‌بندی کرده‌اند بیابد. دیتاست سرچ، محتوای فایل‌ها را آن‌گونه که موتورهای جست‌وجو درمورد صفحات وب انجام می‌دهند، نمی‌خواند. کارشناسان معتقدند این موتور جست‌وجو می‌تواند به میزان چشمگیری به موفقیت جنبش «داده باز» که هدف از آن دسترسی و استفاده آزاد عموم مردم از مجموعه‌ای از داده‌ها و بازنشر آنها بدون هیچ‌گونه محدودیتی است، کمک کند.
کد خبر: ۱۱۶۶۴۰۲

موسسات دولتی، ناشران علمی، موسسات تحقیقاتی و حتی هر فرد محققی هزاران منبع داده باز را در سراسر جهان نگهداری میکند که حاوی میلیونها مجموعه داده است. ناتاشا نوی، دانشمند علوم رایانه در هوش مصنوعی گوگل در کالیفرنیا میگوید: محققانی که میخواهند بدانند چه نوع دادههایی در دسترس است یا امیدوار به یافتن دادههایی هستند که از وجود آنها اطلاع دارند، اغلب باید به شایعات اعتماد کنند. نوی میافزاید این مشکل بویژه برای محققان تازهکاری که تاکنون به شبکهای از ارتباطات حرفهای متصل نشدهاند، بسیار جدی است.

جستوجوی طبقهبندی شده

موتورهای جستوجوی معمولی در دو مرحله عمده کار میکنند: نخست با جستوجو در اینترنت، صفحات در دسترس را فهرست میکنند و در مرحله دوم این صفحات را طوری رتبهبندی میکنند که وقتی کاربر اصطلاح مورد نظرش را جستوجو میکند، نتایج مرتبط ارائه شوند. نوی و همکارش دن بریکلی ژانویه 2017 در وبلاگی در این باره نوشتند برای کمک به موتورهای جستوجو در فهرستبندی مجموعه دادههای موجود، کسانی که دارای مجموعه دادهها هستند، باید آنها را با استفاده از کلمات استاندارد (Schema.org ابتکار عمل گوگل و سه موتور جستوجوی دیگر یعنی مایکروسافت، یاهو و یاندکس) برچسبگذاری کنند. تیم گوگل همچنین یک الگوریتم ویژه برای رتبهبندی دادهها در نتایج جستوجو ایجاد کرد.

مارک هانل، مدیر اجرایی یک شرکت اشتراکگذاری داده در لندن میگوید با توجه به برتری گوگل در جستوجوی وب، خبرهایی که این شرکت به اکوسیستم دادهها منتقل میکرد، باعث شد بازیگران عمده در این زمینه سرعت همگام شده و ابردادههای خود را استاندارد کنند. هانل میافزاید تا ماه نوامبر / آبان، همه دانشگاههایی که ما با آنها کار میکنیم دادههای خود را برچسبگذاری میکنند. این کار تحول عمدهای در دادههای باز محیطهای دانشگاهی ایجاد خواهدکرد. موسسات سرمایهگذار، گاهی خواهان در دسترس بودن دادههای تحقیقات هستند و اگر با شروع به کار دیتا ست سرچ، اطلاعات به طرز موثری قابل بازیابی باشند این موسسات به هدف نهایی خود خواهند رسید. به گفته نوی، این موتور جستوجو کاری را که سرمایهگذاران قصد انجام آن را داشتند قانونی می‌کند.

مشارکت سازمانی

یکی از پیشگامان حمایت از گوگل، سازمان ملی اقیانوسی و جوی آمریکا (NOAA) است. آرشیو این سازمان شامل حدود 70 هزار مجموعه داده است.

این منابع به بیش از 35 پتابایت داده اضافه می‌شوند که معادل محتوای 35هزار هارد دیسک معمولی است. برای شروع کار موتور جست‌وجوی دیتاسِت سرچ، همکاری صاحبان داده، یک مرحله بسیار مهم به شمار می‌آید. هرچند این سیستم در آینده ممکن است پیچیده‌تر شود، اما گوگل در حال حاضر هیچ برنامه‌ای برای خواندن داده‌ها یا تجزیه و تحلیل آنها - آن‌گونه که درمورد صفحات وب یا تصاویر انجام می‌دهد- ندارد. نوی می‌گوید چنین ابزار جست‌وجویی مناسب ابرداده‌هایی است که انتشاردهندگان داده‌ها مایل به ارائه آنها هستند. همانند گوگل اسکالر، موتور جست‌وجوی دیتاست سرچ در حال حاضر، جست‌وجوی خودکار یا رابط برنامه‌نویسی کاربردی (API) ارائه نمی‌کند. اما گوگل اعلام کرده است احتمال دارد این قابلیت را در آینده اضافه کند. به گفته نوی با شروع استفاده محققان از دیتاست سرچ، گوگل تعامل آنها با این موتور جست‌وجو را بررسی کرده و از آن برای بهبود نتایج جست‌وجو استفاده می‌کند. همچنین به گفته نوی، گوگل فعلا برنامه‌ای برای پولی کردن خدمات ارائه شده ندارد. با تکامل
دیتا ست سرچ، این موتور جست‌وجو احتمالا با گوگل اسکالر ادغام می‌شود به‌طوری که نتایج جست‌وجو درمورد یک مطالعه خاص، به مجموعه داده‌های متناسب مرتبط شوند.

منبع: nature.com

یاسمین مشرف

جام‌جم

newsQrCode
ارسال نظرات در انتظار بررسی: ۰ انتشار یافته: ۰

نیازمندی ها