چگونه‌داده‌های مورد نظرمان را در اینترنت پیدا کنیم؟

صد دانه داده، دسته به دسته!

دنیای امروز، دنیای داده‌هاست. داده‌هایی در هر موضوعی از سیاسی، اقتصادی، بهداشت و درمان گرفته تا محیط‌زیست و بسیاری زمینه‌های دیگر.
کد خبر: ۱۱۷۲۸۱۹

از سویی با پیشرفت تکنولوژی، ابزارهای جمعآوری دادهها نیز قدرتمندتر شدهاند و از سوی دیگر، به اشتراکگذاری اطلاعات نیز به امری رایج تبدیل شده است، اما دادهها در شکل خام و بینظم کارکرد پایینی دارند، زیرا تحلیل و بررسی آنها آسان نیست. بر این اساس، مجموعه دادهها (Datasets) شکل گرفتهاند که حجم بالایی از دادههای جمعآوری شده در یک موضوع مشخص هستند که بهصورت جدولی منظم ذخیره شدهاند. این مجموعه دادهها نقش بسیار مهمی در انجام تحلیلها در زمینههای مختلف بخصوص یادگیری ماشین و هوش مصنوعی دارند. برخی مجموعه دادهها خصوصی هستند، ولی مجموعه دادههای فراوانی هم بهصورت رایگان در اختیار عموم قرار دارند، فقط باید بدانید کجا دنبالشان باشید.

مجموعهدادههای دولتها و سازمانهای بینالمللی

دولت کشورهای مختلف بر اساس قوانین خود اقدام به انتشار مجموعه دادههای مربوط به آن کشور میکنند. مشهورترین اینگونه منابع، سایت data.gov است که بیش از 300 هزار مجموعه داده کشور آمریکا در آن جمعآوری و بهصورت رایگان برای دانلود قرار گرفته است. این مجموعه دادهها در زمینههای گوناگونی مانند آب و هوا، انرژی، تولید و... ارائه شدهاند. سایت opendatanetwork.com نیز شامل مجموعه بزرگی از دادههای مربوط به ایالتهای مختلف آمریکاست. در همین راستا، پایگاه دسترسی به مجموعه دادههای اتحادیه اروپا را میتوانید در سایت

data.europa.eu/euodp/en/data بیابید که حدود 12 هزار مجموعه داده در موضوعات مختلف از سیاسی و اجتماعی تا حملونقل در آن وجود دارد.

کشورهای دیگر مانند انگلستان (data.gov.uk) و کانادا (open.canada.ca/en/open-data) هم مجموعه دادههایشان را برای تحلیل در اختیار پژوهشگران قرار دادهاند.

سازمانهای بینالمللی مهم نیز پرتالهایی برای دسترسی به مجموعه دادههایشان ایجاد کردهاند. دادههای جمعآوریشده توسط سازمان ملل در سایت data.un.org (با شش میلیون رکورد)، مجموعه دادههای یونیسف در سایت
data.unicef.org/resources/resource-type/datasets
مجموعه دادههای سازمان سلامت جهانی در
who.int/healthinfo/statistics و بانک جهانی در
data.worldbank.org برای تحلیلگران قابل دسترسی است.

مجموعه دادههای عمومی

همیشه اینگونه نیست که پژوهشگران دقیقا مجموعه دادهای در یک زمینه خاص را نیاز داشته باشند، بلکه گاهی نوع یا حجم دادهها بیشتر از خود موضوع اهمیت دارد. در این مواقع سایتهایی مثل
kaggle.com/datasets میتواند مفید واقع شود. این سایت نزدیک به 11 هزار و 500 مجموعه داده شامل موضوعات بسیار متنوع از آتشفشانها تا اپهای پلیاستور را که توسط افراد مختلف آپلود شده است، در اختیار میگذارد. یکی از بزرگترین نقاط قوت این سایت، جستوجو براساس برچسب و همچنین فیلتر کردن مجموعهها بر اساس حجم یا فرمت فایل است که به شما اجازه میدهد دقیقتر مجموعه داده موردنظرتان را بیابید.

یکی دیگر از منابع بسیار خوب برای مجموعه دادههای با تنوع بالا،

github.com/awesomedata/awesome-public-datasets

است. این مخزن گیتهاب عملا مثل یک ایندکس برای مجموعه دادههای عمومی عمل میکند که به تعداد زیادی مجموعه ذیل موضوعات مختلف لینک میدهد. بنابراین حتی اگر بهطور دقیق هم نمیدانید از کجا باید دنبال مجموعه داده مورد نظرتان بگردید، این سایت نقطه شروع بسیار خوبی خواهد بود.

شبیه این سایت، میتوانید از kdnuggets.com/datasets
هم برای دسترسی به تعداد فراوانی مجموعه دادههای گوناگون کمک بگیرید. ظاهر این سایت شاید حدود ده سالی از بقیه اینترنت عقب باشد، اما ارزش آن در ایجاد دسترسی به مجموعه دادههایی که شاید در حالت عادی اصلا به ذهنتان هم خطور نمیکرد که وجود داشته باشند، بالاست! شرکت آمازون هم مجموعه دادههای بازش را در سایتی به نشانی
registry.opendata.aws در اختیار پژوهشگران قرار داده است. در حال حاضر تعداد مجموعه دادههای روی این سایت چندان زیاد نیست (85)، ولی ارزش مجموعهدادههای موجود در آن را دست کم نگیرید! برای مثال، نظرتان درباره متادادههای حدود یک میلیون آهنگ (با حجمی حدود 500 گیگابایت) چیست؟

مجموعهدادههای هوش مصنوعی و یادگیری ماشین

مجموعه دادههای مرتب شده و با ساختار مشخص از جمله ملزومات بسیار اساسی برای دانشجویان و پژوهشگرانی است که در زمینه یادگیری ماشین یا زمینههای زیرمجموعه هوشمصنوعی مانند بینایی ماشین و پردازش زبان طبیعی فعال هستند. یکی از مهمترین و کلاسیکترین منابع برای اینگونه مجموعه دادهها، مخزن دادههای یادگیری ماشین دانشگاه UCI است که از نشانی http://mlr.cs.umass.edu/ml قابل دسترس است. در این مخزن، 22 مجموعه داده استاندارد در موضوعات مختلف ارائه میشود که به آسانی قابل دریافت و استفاده است. علاوه بر این، کسانی که میخواهند روی دادههای ویدئویی کار کنند، پروژه

Youtube-8M (research.google.com/youtube8m)

منبع عظیمی از اطلاعات حدود شش میلیون کلیپ همراه 350 هزار ساعت ویدئو است که بهصورت خاص جمعآوری و فشردهسازی شده است تا مناسب استفاده محققان شود. این دادهها تحت فرمت مناسب موتور تحلیل TensorFlow گوگل ارائه میشود.

موتورهای جستوجوی مجموعه دادهها

احتمالا تا اینجای مطلب به این نتیجه رسیدهاید که پیدا کردن یک مجموعه داده خاص و در زمینهای مشخص چندان ساده نیست. فقط شما نیستید، گوگل هم به همین نتیجه رسیده و برای تسهیل آن، این شرکت اخیرا (یعنی حدود یک ماه پیش) موتور جستوجوی مجموعه دادههای موجود در اینترنت را ایجاد کرده است. یعنی چیزی مانند گوگل Scholar اما با تمرکز کامل روی مجموعه دادهها. مجموعهدادههای گوگل را میتوانید در این نشانی پیدا کنید:

toolbox.google.com/datasetsearch

در عرضه اولیه، فعلا مجموعه دادههایی در زمینههای محیطزیست، دولتی، علوم اجتماعی و خبری در این موتور جستوجو ایندکس شدهاند، ولی با چیزی که از گوگل دیدهایم، باید منتظر افزایش نتایج موجود در این سایت و پوششدهی بازه بزرگی از موضوعات توسط آن باشیم و اینطور که گفته میشود، خود گوگل هم ممکن است مجموعه دادههای خود را در این جستوجوی مجموعه دادهها بگنجاند!

البته گوگل در این زمینه تنها نیست و سایت دیگری به نام schema.org هم دقیقا برای همین کار، اما با سابقه بیشتری مشغول به فعالیت است. در این سایت با نشانی دقیقتر
schema.org/docs/schemas.html هم میتوان با جستوجو یا انتخاب از فهرست به مجموعه دادههای مختلفی از سراسر اینترنت دسترسی پیدا کرد.

مجموعه دادههای فارسی

برای پژوهشگرانی که در زمینه متون فارسی کار تحقیقاتی انجام میدهند، پیدا کردن مجموعه دادههای مناسب و ساختارمند چندان آسان نیست، زیرا درصد بالایی از مجموعه دادههای موجود در اینترنت برای زبانهایی غیر از فارسی ایجاد شدهاند. خوشبختانه با گسترش مباحث دادهکاوی و علوم داده در کشورمان، منابعی هم برای دسترسی بهتر به مجموعه دادههای فارسی به راه افتادهاند. یکی از بهترین نمونهها در این موضوع، سایت dataheart.ir است که در آن میتوانید مجموعه دادههای متنوعی را در زمینههای مختلف به زبان فارسی دانلود و استفاده کنید. برای مثال، دادههای توییت فارسی در یک موضوع از جمله مجموعه دادههای ارزشمندی است که بهعنوان پایه بسیاری از پژوهشهای دادهکاوی متن فارسی مطرح است. علاوه بر این، سایت پیکرهگان به نشانی peykaregan.ir/dataset هم با جمعآوری حدود 70 مجموعه داده زبان فارسی، قدم خوبی را در این زمینه برداشته است. برای آنهایی هم که به کلانداده (Big Data) علاقهمندند، سایت بیگ دیتای ایران (bigdata-ir.com) منبع بسیار خوبی برای دسترسی به مجموعه داده مورد نیاز برای انجام پژوهش در این زمینه است.

محمود صادقی

newsQrCode
ارسال نظرات در انتظار بررسی: ۰ انتشار یافته: ۰

نیازمندی ها