مجموعه داده های پابلیک برای علم داده و یادگیری ماشین — راهنمای کاربردی

۱۹ دی ۱۳۹۷ توسط الهام حصارکی مجموعه: داده کاوی, یادگیری ماشینی

در برخی مباحث، اهمیتی ندارد که فرد چه تعداد کتاب خوانده باشد، بعضی از دانش‌ها صرفا بر اساس تجربه فراهم می‌شوند. این موضوع در زمینه «کلان داده» (Big Data | مَه داده) نیز صحیح است. علارغم تعداد خوب منابع موجود (شامل مجموعه داده‌های KDnuggets (+)) برای مجموعه داده‌های بزرگ، بسیاری از پژوهشگران حوزه «داده‌کاوی» (Data Mining) و «یادگیری ماشین» (Machine Learning) به ویژه افراد تازه وارد هنگامی که قصد انجام پروژه‌های عملی «علم داده» (Data Science) را دارند، به ندرت از این گزینه‌ها آگاه هستند. بنابراین، در این مطلب برخی از مجموعه داده‌های بزرگ و خوب موجود برای استفاده عموم معرفی شده‌اند. در ادامه، لیستی از کتابخانه‌های پابلیک که توسط «Xia Ming» گردآوری شده‌اند معرفی می‌شود. اغلب این منابع به صورت رایگان در دسترس عموم هستند.

کشاورژی

پایگاه داده گیاهان وزارت کشاورزی ایالات متحده آمریکا (+)

زیست‌شناسی

۱۰۰۰ ژنوم (+)
پژوهش همکارانه در علوم اعصاب محاسباتی (+)
مجموعه داده بیان ژن یا GEO (+)
پروژه میکروبیوم انسانی (+)
بنچ‌مارک ICOS PSP (+)
داده‌های ژنوم سرطان MIT (+)
داده‌های میکروآرایه NIH (+)
بانک داده پروتئین (+)
پروژه پاب‌کِم (+)
پاب‌ژِن (+)
داده‌های میکروآرایه استنفورد (+)
پروژه ژنوم فردی (+) یا PGP (+)
مجموعه داده پابلیک UCSC (+)
UniGene (+)

اقلیم/آب‌و‌هوا

آب‌و‌هوای استرالیا (+)
مرکز هواشناسی کانادایی (+)
داده‌های اقلیمی از UEA (این مجموعه داده به صورت ماهانه به روز رسانی می‌شود) (+)
داده‌های اقلیمی جهانی از سال ۱۹۲۹ (+)
اقلیم دریای برینگ NOAA (+)
مجموعه داده‌های اقلیمی NOAA (+)
مدل‌های آب‌و‌هوای زمان واقعی (+)
تاریخچه آب‌و‌هوا در سراسر جهان WU (+)

شبکه‌های پیچیده

CrossRef DOI URLs (+)
مجموعه داده ارجاعات DBLP (+)
ارجاعات ثبت اختراع NBER (+)
مجموعه داده شبکه‌های پیچیده NIST (+)
داده‌های شبکه کوچک (+)
مخزن داده‌های شبکه UCI (+)
شبکه تعاملات پروتئین-پروتئین (+)
شبکه وابستگی PyPI و Maven (+)
مجموعه داده ارجاعات Scopus (+)
Stanford GraphBase (استنفورد اسکیِنا) (+)
مجموعه داده شبکه بزرگ استنفورد (+)
مجموعه داده بزرگ Koblenz (+)
آزمایشگاه الگوریتم‌های وب (UNIMI) (+)
مخزن داده شبکه UCI (+)
مجموعه داده ماتریس خلوت UFL (+)
پایگاه داده گراف WSU (+)

شبکه‌های کامپیوتری

۳.۵ میلیارد صفحه وب از CommonCraw ۲۰۱۲ (+)
۵۳.۵ میلیارد کلیک وب از ۱۰۰k کاربر در دانشگاه ایندیانا (+)
مجموعه داده‌های اینترنتی CAIDA (+)
ClueWeb09 – یک میلیارد صفحه وب (+)
ClueWeb12 – تعداد ۷۳۳ میلیون صفحه وب (+)
داده‌های وب CommonCrawl در طول ۷ سال (+)
مجموعه داده بی‌سیم CRAWDAD از دانشگاه دارتموث (+)
داده‌های میزان کلیک Criteo (+)
Open Mobile Data منتشر شده توسط MobiPerf (+)
UCSD Network Telescope, IPv4 /8 net (+)

رقابت‌های حوزه علم داده و یادگیری ماشین

چالش‌های یادگیری ماشین (+)
رقابت‌های DrivenData با هدف رفاه اجتماعی (+)
چالش‌های داده ICWSM (از سال ۲۰۰۹) (+)
رقابت‌های داده Kaggle (+)
رقابت‌های KDD Cup توسط Tencent ۲۰۱۲ (+)
چالش بصری‌سازی داده Localytics (+)
جایزه Netflix (+)
چالش مجموعه داده Yelp (+)

اقتصاد

انجمن اقتصاد آمریکا (+)
EconData از UMD (+)
پایگاه داده کد محصولات اینترنتی (+)

انرژی

AMPds (+)
BLUEd (+)
COMBED (+)
Dataport (+)
ECO (+)
EIA (+)
HFED (+)
iAWE (+)
Plaid (+)
REDD (+)
UK-Dale (+)

مالی

معاملات آتی CBOE (+)
Google Finance (+)
Google Trends (+)
NASDAQ (+)
OANDA (+)
داده‌های مالی OSU (+)
Quandl (+)
بانک فدرال رزرو سنت لوئیس (+)
Yahoo Finance (+)

اگر این مطلب برایتان مفید بوده است،‌ آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

منبع [+]

مجموعه: داده کاوی, یادگیری ماشینی برچسب ها: Data Mining, data science, Data Set, DataSet, Machine Learning, Public DataSet, پابلیک دیتا ست, پابلیک دیتاست, دیتا ست, دیتاست, علم داده