گفتگو با بروستر کال، مبدع ماشین عقب گرد، آرشیو 7 ساله اینترنت

کهنه چین؛ بیکار؛ امیدوار به زندگی؛ یا نگران حفظ میراث بشریت؛ علاقه مند به جاودانگی دیجیتال و طرفدار پروپاقرص روز مبادا؛

کد خبر: ۵۴۵۲۰

شما کدام صفت را برای کسی که با دار و دسته اش از 1996 تا حالا، کل صفحات اینترنت را هر 60 روز یک بار، ضبط و آرشیو کرده و این 10 میلیارد صفحه را در دسترس رایگان هم قرار داده انتخاب می کنید؛
شوخی نمی کنم. یک نفر واقعا این کار را کرده ، یک نفر که اسمش بروستر کال (BrewsterKahle) است. در دانشگاه دانش کامپیوتر خوانده و تا به حال 100 هزار گیگابایت ناقابل را صرف ذخیره اطلاعاتی کرده که خیلی از آنها احتمالا تا به حال حذف شده اند و روح نویسندگانشان هم از وجود آنها در جایی روی این کره خاکی بی خبر است.
اگر می خواهید بیشتر از کار و انگیزه این آدم سر دربیاورید، متن زیر که خلاصه مصاحبه مجله Newscientist با اوست ، متن بدی نیست. نشانی آرشیو را می خواهید؛ معلوم است دیگر: www.Archive.org

چرا باید کسی چنین کاری را بکند؛
وب سایت ها مثل شنهای روان هستند. عمر متوسط یک صفحه وب 100 روز است. پس از این مدت یا تغییر می کند یا ناپدید می شود؛ بنابراین جامعه روشنفکر ما روی شن بنا شده است.
نمی توانید جوابگوی مردم باشید؛ وقتی مثلا وعده وعیدهایی که سیاستمداران روی شبکه می دهند، پس از انتخابات دیگر موجود نباشد.
همین طور اگر یک محقق ، دانشگاهی را ترک کند و وب سایتش از روی شبکه پاک شود، مقالات آکادمیک کلیدی ممکن است از دسترس خارج شوند.
این طور که ما فهمیدیم ، وب سایت خیلی از پروژه های عمومی که مردم پولش را داده اند، یک سال نشده غیب می شود.
این یعنی ما به عنوان مالیات دهنده ، روی پروژه های تحقیقاتی ، سرمایه گذاری می کنیم اما برای یک کتابخانه وب که آنها را سازماندهی کند و در دسترس نسلهای آینده قرار دهد، کاری انجام نمی دهیم.
ماشین عقب گرد (Way Back Machine) اولین تلاش برای این کار است.

ولی خیلی از چیزهای روی شبکه نامعتبر است. اینها برای نسلهای آینده چه اهمیتی دارد؛
تمام نکته مجموعه های کتابخانه ای جامع این است که کسی نمی تواند پیشاپیش بگوید چه چیزی مهم خواهد بود. وب ، رسانه مردم است. نخبه گرا نیست. هر کسی می تواند هر چیزی را رویش منتشر کند؛ بنابراین خوب و بد و زشت ، همه کنار همند.
این یعنی خود ما و بخش جالب قضیه همین است ، مثلا خیلی از کتابخانه ها، الان برای کارهای شجره نامه ای استفاده می شوند. خود شما برای یک ویدئو کلیپ از مادر و مادربزرگتان چقدر حاضرید بدهید؛ من که خیلی می دهم.
ممکن است زیاد تماشایش نکنم ، اما دوست دارم بدانم او چه کسی بوده است.

پس از 11 سپتامبر، به شما دستور ندادند بعضی سایتها را از آرشیو خارج کنید؛ مثلا آنها که حاوی اطلاعات نیروگاه های هسته ای امریکا بودند؛
بله. چیزهایی بود که باید برداشته می شد، ولی همچنان فکر می کنم ما محتویات اساسی یک کتابخانه دیجیتال بزرگ را داریم.
این قضیه در سطوح دیگر هم وجود دارد چون کلی صفحه وب شخصی روی شبکه هست و ممکن است این صفحه ها حاوی عکس همسر شما باشند که خب چند سال بعد ممکن است بشود همسر سابقتان.
اگر نویسندگان اصلی یک صفحه تقاضا کنند که آن را نگه نداریم ، ما هم از آرشیو حذفش می کنیم.

سایتهای پولی چطور؛
ما سایتهای پولی یا آنهایی که رمز عبور می خواهند را ضبط نمی کنیم.

ولی با این کار، یکی از دو طرف داستان را از دست می دهید. آیا دنیای اطلاعات دو تکه است ، تکه مجانی و تکه پولی؛
شاید. ولی آرشیوهایی از اطلاعات تجاری همین حالا هم وجود دارد. مثل یک کتابخانه سنتی است. یا پول دسترسی به اطلاعات را می دهید یا فقط می توانید تماشایش کنید. این دنیای قدیم است و دیگر خسته و فرسوده شده.
آرشیوها، رسانه مردم است و هر کس هر جا که باشد می تواند از آن استفاده کند. یک سایت پولی مثل Lexis Nexisچند تا مشترک دارد؛ از گوگل چند نفر استفاده می کنند؛ شما ترجیح می دهید در کدام یک ، چیزی منتشر کنید؛

شما نسخه های قبل از چاپ بعضی مقالات علمی را در اختیار دارید، در حالی که سایت مجلاتی که فقط به مشترکان سرویس می دهند و حاوی نسخه های نهایی آن مقالات هستند را ندارید. درست است؛
ما واقعا هنوز با دنیای آکادمیک وارد معامله نشده ایم. آنها خودشان خوب از پس کارهای خودشان بر می آیند. من واقعا ناشران چاپی را به خاطر روش نگهداری محصولاتشان تحسین می کنم ، اما خانه های نشر تا ابد پایدار نمی مانند و علاقه آنها برای نگهداری چیزهایی که سود تجاری ندارد هم محدود است.
پولی که از مردم برای کتابخانه ها گرفته می شود به همین درد می خورد. سیستم کتابخانه عمومی در امریکا سالی 25میلیارد دلار بودجه می گیرد. این پول زیادی است. 5 تا 6میلیاردش برای خرید کتاب به ناشران پرداخت می شود.
ما می توانیم با بخش کمی از این پول ، کار خیلی بهتری بکنیم. یعنی کتابهای کلاسیک و شاهکارهای ادبی را در دسترس هر بچه ای قرار بدهیم. حالا با آرشیو من یا هر چیزی شبیه آن.

حجم این آرشیو الان چقدر است؛
بیشتر از 100 ترابایت (100هزار گیگابایت) که اگر به صورت متن کتابی در آورده شود، 3000 مایل قفسه را پر می کند و البته ماهی هم 10 ترابایت به آن اضافه می شود.
فقط خریدهارد دیسک و دیگر سخت افزارهای ذخیره داده در هر ماه برای ما 40 هزار دلار هزینه دارد. سال آینده قیمت همین حجم هارد درایو نصف می شود، اما در عوض مقدار داده هایی که باید آرشیو کرد دو برابر یا بیشتر شده است.

حالا این ماشین عقب گرد چه شکلی هست؛
150 تا کیس پی سی استاندارد با 4 درایو در هر کدام و طوری کنار هم چیده شده که کمی به یک قفسه کتاب می ماند.

و آرشیوتان از نظر فیزیکی کجاست؛
در 3 نقطه ، 2 کپی در سانفرانسیسکو و یکی هم در کتابخانه جدید اسکندریه مصر.
اگر از مردم بپرسید درباره کتابخانه بزرگ اسکندریه چی می دانی؛ بیشترشان می گویند همونی نبود که سوخت؛
این یعنی یک کپی کافی نیست. از مجموعه هایی که در تعریف فرهنگ ها واقعا اهمیت دارند باید به طور ویژه محافظت کرد.

فکر می کنید ماشین های عقبگرد دیگری هم وجود خواهد داشت!
ما تنها بازیگر شهر نخواهیم بود. دوست داریم بخشی باشیم از شبکه ای از کتابخانه ها و آرشیوها که همه باهم همکاری می کنند. فکر می کنم پرسش دیگر این نیست که میراث دیجیتال را باید حفظ کرد یا نه ، پرسش سر چگونگی آن است و از دید من ، نکته اصلی این وسط دسترسی است. به فرض BritishLibrary، صفحه های وب بریتانیا را جمع آوری کند، قرار است اینها فقط درون کتابخانه در دسترس مردم باشد؛
حالا دیگر دوره ای شده که مردم روی وب ، دنبال چیزها می گردند و اگر آنجا نباشد، معنی اش این است که اصلا وجود ندارد.
پس تلاش برای این که بهترین کارهای موجود را روی شبکه ارائه کنیم ، از دیدگاه کتابخانه ای اهمیت دارد.

از کجا وارد دنیای رایانه شدید؛
من واقعا خیلی زود درگیر رایانه ها شدم ، یکی از رفقا در دبیرستان ، کامپیوتری براساس منطق ترانزیستوری ساخت.
برای یک بچه گوشه گیر شهرستانی ، کار گنده ای بود. من هم رفتم که در MIT، دانش کامپیوتر بخوانم و آنجا بود که به رمزنگاری و کتابخانه های دیجیتال علاقه مند شدم.
پس از فارغ التحصیلی در سال 1982، دنی هیلز - استادم در - MIT را در راه انداختن شرکتی به اسم ماشین های متفکر که رایانه های موازی سریع می ساخت کمک کردم.
ما یکی از اولین موتورهای جستجو را برای سرویس خبری داو جونز ساختیم که هر لغتی را میان صدها روزنامه و جمله ، پیدا و ایندکس می کرد.
پس از ساختن این کامپیوترهای بزرگ ، من واقعا انتظار داشتم ، خورشید با رنگ دیگری بالا بیاید. فکر می کردم حالا که ما این همه اطلاعات بامزه و جالب را بیرون کشیده ایم ، دنیا روشن خواهد شد؛ اما معلوم شد بیشتر اطلاعات هنوز با کاغذ جابه جا می شوند.
بنابراین سیستمی ابداع کردم به نام WAIS (سرور اطلاعات گسترده) که اولین سیستم انتشاراتی اینترنتی بود. خب خیلی زود با آمدن گوفر و بعد www و موزائیک فراموش شد.

آرشیو کردن یک شبکه ، کار عظیمی است. پولش را از کجا می آورید؛
من همزمان با این کار یک شرکت تجاری به اسم Alexa internet برای کاتالوگ کردن وب سایت ها، راه انداختم.
Alexa یک سرویس مجانی است که در مرورگرهای شبکه جا داده می شود و حالا به شرکت آمازون تعلق دارد. می بینید که به تامین بودجه آرشیو کمک می کنم.
خیلی های دیگر هم کمک می کنند. سازمان های خصوصی و آرشیوهای قدیمی مثل اسمیتسونیان و کتابخانه کنگره «یک بودجه 4 ساله یک میلیون دلاری هم از بنیاد ملی دانش گرفته ایم.»

از نظر نرم افزاری و سخت افزاری ، روش نگهداری تان چقدر قابل اعتماد است؛
ما تا به حال دو بار قالب آرشیومان را نو کرده ایم. اول با نوارهای دیجیتال شروع کردیم ، اما دیدیم کند، گران و نامطمئن هستند. سال 96 و 97 و 98 را روی نوار ذخیره کردیم. سال 99 بود که تازه سراغ هارد درایو رفتیم و حال داریم از نسل جدیدهارد درایوها استفاده می کنیم.
دیسک درایوها یک آهنگ ویرانی مشخص دارند؛ بنابراین وقتی درایوهای بزرگتر وارد بازار می شوند، داده ها را روی درایوهای جدید کپی می کنیم. اما قدیمی ها را هم نگه می داریم.
ما زمانی شروع به استفاده از دیسکها کردیم که تازه به 16 گیگابایت رسیده بودند. حالا داریم درایوهای 300گیگابایتی می خریم و درایوهای 500 گیگابایتی امروز و فردا ممکن است از راه برسند.
این مهندس ها را که می شناسید؛