چگونه‌داده‌های مورد نظرمان را در اینترنت پیدا کنیم؟

صد دانه داده، دسته به دسته!

دنیای امروز، دنیای داده‌هاست. داده‌هایی در هر موضوعی از سیاسی، اقتصادی، بهداشت و درمان گرفته تا محیط‌زیست و بسیاری زمینه‌های دیگر.

کد خبر: ۱۱۷۲۸۱۹

از سویی با پیشرفت تکنولوژی، ابزارهای جمع‌آوری داده‌ها نیز قدرتمندتر شده‌اند و از سوی دیگر، به ‌اشتراک‌گذاری اطلاعات نیز به امری رایج تبدیل شده است، اما داده‌ها در شکل خام و بی‌نظم کارکرد پایینی دارند، زیرا تحلیل و بررسی آنها آسان نیست. بر این اساس، مجموعه داده‌ها (Datasets) شکل گرفته‌اند که حجم بالایی از داده‌های جمع‌آوری شده در یک موضوع مشخص هستند که به‌صورت جدولی منظم ذخیره شده‌اند. این مجموعه داده‌ها نقش بسیار مهمی در انجام تحلیل‌ها در زمینه‌های مختلف بخصوص یادگیری ماشین و هوش مصنوعی دارند. برخی مجموعه داده‌ها خصوصی هستند، ولی مجموعه داده‌های فراوانی هم به‌صورت رایگان در اختیار عموم قرار دارند، فقط باید بدانید کجا دنبالشان باشید.

مجموعه‌داده‌های دولت‌ها و سازمان‌های بین‌المللی

دولت کشورهای مختلف بر اساس قوانین خود اقدام به انتشار مجموعه داده‌های مربوط به آن کشور می‌کنند. مشهورترین این‌گونه منابع، سایت data.gov است که بیش از 300 هزار مجموعه داده کشور آمریکا در آن جمع‌آوری و به‌صورت رایگان برای دانلود قرار گرفته است. این مجموعه داده‌ها در زمینه‌های گوناگونی مانند آب و هوا، انرژی، تولید و... ارائه شده‌اند. سایت opendatanetwork.com نیز شامل مجموعه بزرگی از داده‌های مربوط به ایالت‌های مختلف آمریکاست. در همین راستا، پایگاه دسترسی به مجموعه داده‌های اتحادیه اروپا را می‌توانید در سایت

data.europa.eu/euodp/en/data بیابید که حدود 12 هزار مجموعه داده در موضوعات مختلف از سیاسی و اجتماعی تا حمل‌ونقل در آن وجود دارد.

کشورهای دیگر مانند انگلستان (data.gov.uk) و کانادا (open.canada.ca/en/open-data) هم مجموعه داده‌هایشان را برای تحلیل در اختیار پژوهشگران قرار داده‌اند.

سازمان‌های بین‌المللی مهم نیز پرتال‌هایی برای دسترسی به مجموعه داده‌هایشان ایجاد کرده‌اند. داده‌های جمع‌آوری‌شده توسط سازمان ملل در سایت data.un.org (با شش میلیون رکورد)، مجموعه داده‌های یونیسف در سایت
data.unicef.org/resources/resource-type/datasets
مجموعه داده‌های سازمان سلامت جهانی در
who.int/healthinfo/statistics و بانک جهانی در
data.worldbank.org برای تحلیلگران قابل دسترسی است.

مجموعه داده‌های عمومی

همیشه این‌گونه نیست که پژوهشگران دقیقا مجموعه داده‌ای در یک زمینه خاص را نیاز داشته باشند، بلکه گاهی نوع یا حجم داده‌ها بیشتر از خود موضوع اهمیت دارد. در این مواقع سایت‌هایی مثل
kaggle.com/datasets می‌تواند مفید واقع شود. این سایت نزدیک به 11 هزار و 500 مجموعه داده شامل موضوعات بسیار متنوع از آتشفشان‌ها تا اپ‌های پلی‌استور را که توسط افراد مختلف آپلود شده است، در اختیار می‌گذارد. یکی از بزرگ‌ترین نقاط قوت این سایت، جست‌وجو براساس برچسب و همچنین فیلتر کردن مجموعه‌ها بر اساس حجم یا فرمت فایل است که به شما اجازه می‌دهد دقیق‌تر مجموعه داده موردنظرتان را بیابید.

یکی دیگر از منابع بسیار خوب برای مجموعه داده‌های با تنوع بالا،

github.com/awesomedata/awesome-public-datasets

است. این مخزن گیت‌هاب عملا مثل یک ایندکس برای مجموعه داده‌های عمومی عمل می‌کند که به تعداد زیادی مجموعه ذیل موضوعات مختلف لینک می‌دهد. بنابراین حتی اگر به‌طور دقیق هم نمی‌دانید از کجا باید دنبال مجموعه داده مورد نظرتان بگردید، این سایت نقطه شروع بسیار خوبی خواهد بود.

شبیه این سایت، می‌توانید از kdnuggets.com/datasets
هم برای دسترسی به تعداد فراوانی مجموعه داده‌های گوناگون کمک بگیرید. ظاهر این سایت شاید حدود ده سالی از بقیه اینترنت عقب باشد، اما ارزش آن در ایجاد دسترسی به مجموعه داده‌هایی که شاید در حالت عادی اصلا به ذهنتان هم خطور نمی‌کرد که وجود داشته باشند، بالاست! شرکت آمازون هم مجموعه داده‌های بازش را در سایتی به نشانی
registry.opendata.aws در اختیار پژوهشگران قرار داده است. در حال حاضر تعداد مجموعه داده‌های روی این سایت چندان زیاد نیست (85)، ولی ارزش مجموعه‌داده‌های موجود در آن را دست کم نگیرید! برای مثال، نظرتان درباره متاداده‌های حدود یک میلیون آهنگ (با حجمی حدود 500 گیگابایت) چیست؟

مجموعه‌داده‌های هوش مصنوعی و یادگیری ماشین

مجموعه داده‌های مرتب شده و با ساختار مشخص از جمله ملزومات بسیار اساسی برای دانشجویان و پژوهشگرانی است که در زمینه یادگیری ماشین یا زمینه‌های زیرمجموعه هوش‌مصنوعی مانند بینایی ماشین و پردازش زبان طبیعی فعال هستند. یکی از مهم‌ترین و کلاسیک‌ترین منابع برای این‌گونه مجموعه داده‌ها، مخزن داده‌های یادگیری ماشین دانشگاه UCI است که از نشانی http://mlr.cs.umass.edu/ml قابل دسترس است. در این مخزن، 22 مجموعه داده استاندارد در موضوعات مختلف ارائه می‌شود که به آسانی قابل دریافت و استفاده است. علاوه بر این، کسانی که می‌خواهند روی داده‌های ویدئویی کار کنند، پروژه

Youtube-8M (research.google.com/youtube8m)

منبع عظیمی از اطلاعات حدود شش میلیون کلیپ همراه 350 هزار ساعت ویدئو است که به‌صورت خاص جمع‌آوری و فشرده‌سازی شده است تا مناسب استفاده محققان شود. این داده‌ها تحت فرمت مناسب موتور تحلیل TensorFlow گوگل ارائه می‌شود.

موتورهای جست‌وجوی مجموعه داده‌ها

احتمالا تا این‌جای مطلب به این نتیجه رسیده‌اید که پیدا کردن یک مجموعه داده خاص و در زمینه‌ای مشخص چندان ساده نیست. فقط شما نیستید، گوگل هم به همین نتیجه رسیده و برای تسهیل آن، این شرکت اخیرا (یعنی حدود یک ماه پیش) موتور جست‌وجوی مجموعه داده‌های موجود در اینترنت را ایجاد کرده است. یعنی چیزی مانند گوگل Scholar اما با تمرکز کامل روی مجموعه داده‌ها. مجموعه‌داده‌های گوگل را می‌توانید در این نشانی پیدا کنید:

toolbox.google.com/datasetsearch

در عرضه اولیه، فعلا مجموعه داده‌هایی در زمینه‌های محیط‌زیست، دولتی، علوم اجتماعی و خبری در این موتور جست‌وجو ایندکس شده‌اند، ولی با چیزی که از گوگل دیده‌ایم، باید منتظر افزایش نتایج موجود در این سایت و پوشش‌دهی بازه بزرگی از موضوعات توسط آن باشیم و این‌طور که گفته می‌شود، خود گوگل هم ممکن است مجموعه داده‌های خود را در این جست‌وجوی مجموعه داده‌ها بگنجاند!

البته گوگل در این زمینه تنها نیست و سایت دیگری به نام schema.org هم دقیقا برای همین کار، اما با سابقه بیشتری مشغول به فعالیت است. در این سایت با نشانی دقیق‌تر
schema.org/docs/schemas.html هم می‌توان با جست‌وجو یا انتخاب از فهرست به مجموعه داده‌های مختلفی از سراسر اینترنت دسترسی پیدا کرد.

مجموعه داده‌های فارسی

برای پژوهشگرانی که در زمینه متون فارسی کار تحقیقاتی انجام می‌دهند، پیدا کردن مجموعه داده‌های مناسب و ساختارمند چندان آسان نیست، زیرا درصد بالایی از مجموعه داده‌های موجود در اینترنت برای زبان‌هایی غیر از فارسی ایجاد شده‌اند. خوشبختانه با گسترش مباحث داده‌کاوی و علوم داده در کشورمان، منابعی هم برای دسترسی بهتر به مجموعه داده‌های فارسی به راه افتاده‌اند. یکی از بهترین نمونه‌ها در این موضوع، سایت dataheart.ir است که در آن می‌توانید مجموعه داده‌های متنوعی را در زمینه‌های مختلف به زبان فارسی دانلود و استفاده کنید. برای مثال، داده‌های توییت فارسی در یک موضوع از جمله مجموعه داده‌های ارزشمندی است که به‌عنوان پایه بسیاری از پژوهش‌های داده‌کاوی متن فارسی مطرح است. علاوه بر این، سایت پیکره‌گان به نشانی peykaregan.ir/dataset هم با جمع‌آوری حدود 70 مجموعه داده زبان فارسی، قدم خوبی را در این زمینه برداشته است. برای آنهایی هم که به کلان‌داده (Big Data) علاقه‌مندند، سایت بیگ دیتای ایران (bigdata-ir.com) منبع بسیار خوبی برای دسترسی به مجموعه داده مورد نیاز برای انجام پژوهش در این زمینه است.