سوزن در انبار کاه

امروز دیگر ، شبکه اینترنت آنقدر بزرگ و صفحه ها و اطلاعات آن آنقدر زیاد شده اند که استفاده از آن بدون رجوع به سایتهای جستجوگر ، عملا غیرممکن است.
کد خبر: ۴۷۱۶۹

حالا برای خیلی ها، اینترنت بدون گوگل معنا ندارد و روز بدون آن که چند ده بار چشمتان به جمال لوگوی این سایت و بقیه موتورهای جستجوی اینترنتی روشن نشود ، نمی گذرد. موتورهای جستجوی اینترنتی ، سایتهای ویژه ای هستند که برای کمک به مردم در یافتن اطلاعات مورد نیازشان روی شبکه ، طراحی شده اند. در نحوه کار این موتورها ، تفاوت هایی وجود دارد اما همه آنها این 3 کار اصلی را انجام می دهند:
1- به طور پیوسته ، اینترنت یا قسمتهایی از آن را براساس واژه های مهم جستجو می کنند.
2- فهرستی از لغات یافت شده را همراه نشانی آنها تشکیل می دهند.
3- به کاربران اجازه می دهند که در این فهرست عظیم به دنبال واژه یا واژه های مورد نظرشان بگردند.

فهرستی در کار است

حتما دیده اید که جستجوی بیش از 4 میلیارد صفحه به دنبال یک کلمه در گوگل چیزی از مرتبه چند دهم ثانیه طول می کشد که مسلما برای شروع جستجو از صفر ، زمان خیلی کمی است . در واقع پیش از این که یک موتور جستجو بتواند به شما بگوید یک فایل یا مطلب کجاست ، باید قبلا آن را پیدا کرده باشد. برای پیدا کردن اطلاعات در میان چند میلیارد صفحه اینترنتی موجود ، یک موتور جستجو ، با استفاده از ربات های نرم افزاری خاصی به نام عنکبوت ، فهرستهایی از لغات پیدا شده در سایتهای اینترنتی ایجاد می کند که به این فرآیند ، خزیدن در شبکه گفته می شود. اما یک عنکبوت ، سفر اکتشافی اش را میان صفحه ها چطور آغاز می کند؛ نقطه شروع این سفر ، سرورهای پرکاربرد و صفحه های اینترنتی خیلی محبوب و معروف است . به عبارت دیگر، عنکبوت با شروع از یک سایت محبوب و پر مراجع اینترنتی ، واژه های به کار رفته در صفحات آن را فهرست و همه لینکهای موجود در آن را تعقیب می کند. به این ترتیب ، سیستم عنکبوتی بسرعت به پر مراجع ترین قسمتهای شبکه اینترنت راه می یابد. به عنوان مثال ، سرگئی برین و لارنس پیج ، 2نفر از بنیانگذاران گوگل در مقاله ای که نحوه ایجاد و ساخت سیستم را توضیح می دهد ، آماری از این فرآیند ارائه کرده اند. آنها سیستم جستجوی اولیه را طوری طراحی کردند که در هر لحظه بتواند از چند عنکبوت معمولا 3 تا استفاده کند. هر عنکبوت می توانست در هر لحظه ، حدود 300 اتصال به صفحات اینترنتی را باز نگه دارد. به این ترتیب سیستم آنها قادر بود در هر ثانیه 100 صفحه را بکاود و حدود 600 کیلو بایت اطلاعات جمع آوری کند. وقتی عنکبوت گوگل به یک صفحه html نگاه می کند ، از دو چیز یادداشت برمی دارد: واژه های درون صفحه و محل آنها. این عنکبوت طوری طراحی شده بود که بجز حروف تعریف a ، an ، the از هر واژه دیگری فهرست بردارد. سایر عنکبوت ها ممکن است از روشهای دیگری استفاده کنند. این روشهای مختلف ، در جهت سرعت بخشیدن به کار عنکبوت یا فراهم کردن امکان جستجوی کاراتر برای کاربران ، یا هر دو هدف عمل می کند. مثلا عنکبوت های موتور Lycos ، از کلمات به کار رفته در عنوان ، زیر عنوان ها و لینک ها ، به همراه 100 لغت پرتکرار صفحه و همه کلمه های موجود در 20 سطر اول متن فهرست برمی دارند. سیستم های دیگر مثل آلتاویستا تک تک واژه های یک صفحه از جمله حروف تعریف را هم در فهرست وارد می کنند. ولی در کنار این روش ، رهیافت دیگری هم هست که قسمتهای نادیدنی صفحه های وب را مورد توجه قرار می دهد: متاتگ ها.

متاتگ ها یا حرف حساب این صفحه چیه؛

متاتگ بخشی نادیدنی از صفحه است که به صاحب آن امکان می دهد تا لغات کلیدی و موضوعاتی را که صفحه باید در ذیل آنها فهرست شود، مشخص کند و این ، بخصوص وقتی که لغات اصلی موجود در صفحه ، معنای دوگانه یا چند گانه دارند، می تواند سودمند باشد. در این مواقع ، متاتگ ها می توانند موتور جستجو را در انتخاب معنای درست و مناسب این لغات راهنمایی کند. البته اعتماد بیش از حد به متاتگ ها می تواند خطرناک باشد زیرا ممکن است یک صاحب صفحه بی دقت یا مغرض ، متاتگ هایی مرتبط با موضوعات پرطرفدار به صفحه اضافه کند که هیچ ارتباطی به محتویات آن ندارند. برای دوری از این خطر، عنکبوت ها ، اغلب متاتگ ها را با محتوای صفحه تطابق می دهند و آنهایی را که با لغات صفحه نمی خوانند، نادیده می گیرند.

یه سایت می خوام که ...

جستجو در فهرست یک موتور شامل ایجاد یک درخواست و ثبت آن به وسیله کاربر است. این درخواست می تواند خیلی ساده و شامل یک لغت باشد. ثبت یک درخواست پیچیده تر ، نیاز به استفاده از عملگرهای بولی دارد که رایج ترین آنها عبارتند از:
AND : همه عبارت های متصل شده با AND باید در صفحه آمده باشند.
OR : حداقل یکی از عبارات مرتبط با OR باید در صفحه باشد.
NOT : چیزی که به دنبال NOT می آید ، نباید در صفحه باشد.
FOLLWED BY : عبارت دوم باید بلافاصله بعد از عبارت اول در صفحه آمده باشد.
NEAR : یکی از عبارات باید به اندازه تعداد مشخصی لغت با دیگری فاصله داشته باشد.
«» : عبارت بین علامت نقل قول باید عینا در متن آمده باشد.

این موتورهای بی شعور!

جستجوهای تعریف شده با عملگرهای بولی ، جستجوهای عینی هستند، یعنی موتور دقیقا به همان شکلی که واژه ها وارد شده اند، دنبالشان می گردد. این ویژگی وقتی که لغات وارد شده معنای چندگانه و بی ربط دارند، ممکن است مشکل ساز شود. مثلا واژه bed می تواند به معنای جای خواب ، محل کاشت گل ، مخزن یک کامیون یا محل تخمگذاری ماهی باشد. اگر شما فقط به یکی از معانی علاقه مند باشید، احتمالا تمایلی به دیدن صفحه هایی که درباره معانی دیگر هستند ندارید. یکی از موضوعات تحقیقاتی در حیطه موتورهای جستجو، جستجو با زبان طبیعی است . ایده این روش این است که شما بتوانید سوال را به همان شکلی که از بغل دستیتان می پرسید و بدون آن که نیازی به آگاهی از عملگرهای بولی یا ساختارهای پیچیده درخواست اطلاعات داشته باشید وارد رایانه کنید. امروزه معروف ترین سایت جستجو با زبان طبیعی Askjeeves.com است که سوال وارد شده را به لغات کلیدی تجزیه و سپس فهرستش را به دنبال این واژه ها جستجو می کند. سیستم این سایت تنها با سوالهای ساده قابل استفاده است اما رقابت سنگینی بر سر ایجاد موتوری که بتواند یک سوال عام با پیچیدگی زیاد را بپذیرد ، جریان دارد. به نظر شما کی می توان محل اختفای بن لادن را از گوگل پرسید؛
newsQrCode
ارسال نظرات در انتظار بررسی: ۰ انتشار یافته: ۰

نیازمندی ها