موسسات دولتی، ناشران علمی، موسسات تحقیقاتی و حتی هر فرد محققی هزاران منبع داده باز را در سراسر جهان نگهداری میکند که حاوی میلیونها مجموعه داده است. ناتاشا نوی، دانشمند علوم رایانه در هوش مصنوعی گوگل در کالیفرنیا میگوید: محققانی که میخواهند بدانند چه نوع دادههایی در دسترس است یا امیدوار به یافتن دادههایی هستند که از وجود آنها اطلاع دارند، اغلب باید به شایعات اعتماد کنند. نوی میافزاید این مشکل بویژه برای محققان تازهکاری که تاکنون به شبکهای از ارتباطات حرفهای متصل نشدهاند، بسیار جدی است.
جستوجوی طبقهبندی شده
موتورهای جستوجوی معمولی در دو مرحله عمده کار میکنند: نخست با جستوجو در اینترنت، صفحات در دسترس را فهرست میکنند و در مرحله دوم این صفحات را طوری رتبهبندی میکنند که وقتی کاربر اصطلاح مورد نظرش را جستوجو میکند، نتایج مرتبط ارائه شوند. نوی و همکارش دن بریکلی ژانویه 2017 در وبلاگی در این باره نوشتند برای کمک به موتورهای جستوجو در فهرستبندی مجموعه دادههای موجود، کسانی که دارای مجموعه دادهها هستند، باید آنها را با استفاده از کلمات استاندارد (Schema.org ابتکار عمل گوگل و سه موتور جستوجوی دیگر یعنی مایکروسافت، یاهو و یاندکس) برچسبگذاری کنند. تیم گوگل همچنین یک الگوریتم ویژه برای رتبهبندی دادهها در نتایج جستوجو ایجاد کرد.
مارک هانل، مدیر اجرایی یک شرکت اشتراکگذاری داده در لندن میگوید با توجه به برتری گوگل در جستوجوی وب، خبرهایی که این شرکت به اکوسیستم دادهها منتقل میکرد، باعث شد بازیگران عمده در این زمینه سرعت همگام شده و ابردادههای خود را استاندارد کنند. هانل میافزاید تا ماه نوامبر / آبان، همه دانشگاههایی که ما با آنها کار میکنیم دادههای خود را برچسبگذاری میکنند. این کار تحول عمدهای در دادههای باز محیطهای دانشگاهی ایجاد خواهدکرد. موسسات سرمایهگذار، گاهی خواهان در دسترس بودن دادههای تحقیقات هستند و اگر با شروع به کار دیتا ست سرچ، اطلاعات به طرز موثری قابل بازیابی باشند این موسسات به هدف نهایی خود خواهند رسید. به گفته نوی، این موتور جستوجو کاری را که سرمایهگذاران قصد انجام آن را داشتند قانونی میکند.
مشارکت سازمانی
یکی از پیشگامان حمایت از گوگل، سازمان ملی اقیانوسی و جوی آمریکا (NOAA) است. آرشیو این سازمان شامل حدود 70 هزار مجموعه داده است.
این منابع به بیش از 35 پتابایت داده اضافه میشوند که معادل محتوای 35هزار هارد دیسک معمولی است. برای شروع کار موتور جستوجوی دیتاسِت سرچ، همکاری صاحبان داده، یک مرحله بسیار مهم به شمار میآید. هرچند این سیستم در آینده ممکن است پیچیدهتر شود، اما گوگل در حال حاضر هیچ برنامهای برای خواندن دادهها یا تجزیه و تحلیل آنها - آنگونه که درمورد صفحات وب یا تصاویر انجام میدهد- ندارد. نوی میگوید چنین ابزار جستوجویی مناسب ابردادههایی است که انتشاردهندگان دادهها مایل به ارائه آنها هستند. همانند گوگل اسکالر، موتور جستوجوی دیتاست سرچ در حال حاضر، جستوجوی خودکار یا رابط برنامهنویسی کاربردی (API) ارائه نمیکند. اما گوگل اعلام کرده است احتمال دارد این قابلیت را در آینده اضافه کند. به گفته نوی با شروع استفاده محققان از دیتاست سرچ، گوگل تعامل آنها با این موتور جستوجو را بررسی کرده و از آن برای بهبود نتایج جستوجو استفاده میکند. همچنین به گفته نوی، گوگل فعلا برنامهای برای پولی کردن خدمات ارائه شده ندارد. با تکامل
دیتا ست سرچ، این موتور جستوجو احتمالا با گوگل اسکالر ادغام میشود بهطوری که نتایج جستوجو درمورد یک مطالعه خاص، به مجموعه دادههای متناسب مرتبط شوند.
منبع: nature.com
یاسمین مشرف
جامجم
در تپش این هفته، ماجرای فریب و تعرض در پوشش عرفانهای دروغین و رمالی را بررسی کردیم