مجموعه داده های پابلیک برای علم داده و یادگیری ماشین — راهنمای کاربردی
در برخی مباحث، اهمیتی ندارد که فرد چه تعداد کتاب خوانده باشد، بعضی از دانشها صرفا بر اساس تجربه فراهم میشوند. این موضوع در زمینه «کلان داده» (Big Data | مَه داده) نیز صحیح است. علارغم تعداد خوب منابع موجود (شامل مجموعه دادههای KDnuggets (+)) برای مجموعه دادههای بزرگ، بسیاری از پژوهشگران حوزه «دادهکاوی» (Data Mining) و «یادگیری ماشین» (Machine Learning) به ویژه افراد تازه وارد هنگامی که قصد انجام پروژههای عملی «علم داده» (Data Science) را دارند، به ندرت از این گزینهها آگاه هستند. بنابراین، در این مطلب برخی از مجموعه دادههای بزرگ و خوب موجود برای استفاده عموم معرفی شدهاند. در ادامه، لیستی از کتابخانههای پابلیک که توسط «Xia Ming» گردآوری شدهاند معرفی میشود. اغلب این منابع به صورت رایگان در دسترس عموم هستند.
کشاورژی
- پایگاه داده گیاهان وزارت کشاورزی ایالات متحده آمریکا (+)
زیستشناسی
- ۱۰۰۰ ژنوم (+)
- پژوهش همکارانه در علوم اعصاب محاسباتی (+)
- مجموعه داده بیان ژن یا GEO (+)
- پروژه میکروبیوم انسانی (+)
- بنچمارک ICOS PSP (+)
- دادههای ژنوم سرطان MIT (+)
- دادههای میکروآرایه NIH (+)
- بانک داده پروتئین (+)
- پروژه پابکِم (+)
- پابژِن (+)
- دادههای میکروآرایه استنفورد (+)
- پروژه ژنوم فردی (+) یا PGP (+)
- مجموعه داده پابلیک UCSC (+)
- UniGene (+)
اقلیم/آبوهوا
- آبوهوای استرالیا (+)
- مرکز هواشناسی کانادایی (+)
- دادههای اقلیمی از UEA (این مجموعه داده به صورت ماهانه به روز رسانی میشود) (+)
- دادههای اقلیمی جهانی از سال ۱۹۲۹ (+)
- اقلیم دریای برینگ NOAA (+)
- مجموعه دادههای اقلیمی NOAA (+)
- مدلهای آبوهوای زمان واقعی (+)
- تاریخچه آبوهوا در سراسر جهان WU (+)
شبکههای پیچیده
- CrossRef DOI URLs (+)
- مجموعه داده ارجاعات DBLP (+)
- ارجاعات ثبت اختراع NBER (+)
- مجموعه داده شبکههای پیچیده NIST (+)
- دادههای شبکه کوچک (+)
- مخزن دادههای شبکه UCI (+)
- شبکه تعاملات پروتئین-پروتئین (+)
- شبکه وابستگی PyPI و Maven (+)
- مجموعه داده ارجاعات Scopus (+)
- Stanford GraphBase (استنفورد اسکیِنا) (+)
- مجموعه داده شبکه بزرگ استنفورد (+)
- مجموعه داده بزرگ Koblenz (+)
- آزمایشگاه الگوریتمهای وب (UNIMI) (+)
- مخزن داده شبکه UCI (+)
- مجموعه داده ماتریس خلوت UFL (+)
- پایگاه داده گراف WSU (+)
شبکههای کامپیوتری
- ۳.۵ میلیارد صفحه وب از CommonCraw ۲۰۱۲ (+)
- ۵۳.۵ میلیارد کلیک وب از ۱۰۰k کاربر در دانشگاه ایندیانا (+)
- مجموعه دادههای اینترنتی CAIDA (+)
- ClueWeb09 – یک میلیارد صفحه وب (+)
- ClueWeb12 – تعداد ۷۳۳ میلیون صفحه وب (+)
- دادههای وب CommonCrawl در طول ۷ سال (+)
- مجموعه داده بیسیم CRAWDAD از دانشگاه دارتموث (+)
- دادههای میزان کلیک Criteo (+)
- Open Mobile Data منتشر شده توسط MobiPerf (+)
- UCSD Network Telescope, IPv4 /8 net (+)
رقابتهای حوزه علم داده و یادگیری ماشین
- چالشهای یادگیری ماشین (+)
- رقابتهای DrivenData با هدف رفاه اجتماعی (+)
- چالشهای داده ICWSM (از سال ۲۰۰۹) (+)
- رقابتهای داده Kaggle (+)
- رقابتهای KDD Cup توسط Tencent ۲۰۱۲ (+)
- چالش بصریسازی داده Localytics (+)
- جایزه Netflix (+)
- چالش مجموعه داده Yelp (+)
اقتصاد
انرژی
- AMPds (+)
- BLUEd (+)
- COMBED (+)
- Dataport (+)
- ECO (+)
- EIA (+)
- HFED (+)
- iAWE (+)
- Plaid (+)
- REDD (+)
- UK-Dale (+)
مالی
- معاملات آتی CBOE (+)
- Google Finance (+)
- Google Trends (+)
- NASDAQ (+)
- OANDA (+)
- دادههای مالی OSU (+)
- Quandl (+)
- بانک فدرال رزرو سنت لوئیس (+)
- Yahoo Finance (+)
اگر این مطلب برایتان مفید بوده است، آموزشهای زیر نیز به شما پیشنهاد میشوند:
- مجموعه آموزشهای آمار، احتمالات و دادهکاوی
- مجموعه آموزشهای یادگیری ماشین و بازشناسی الگو
- مجموعه آموزشهای شبکههای عصبی مصنوعی
- مجموعه آموزشهای هوش محاسباتی
- مجموعه دادههای رایگان و قابل دانلود برای علم داده و یادگیری ماشین
- مجموعه دادههای عمومی برای دادهکاوی و هوش مصنوعی — راهنمای کاربردی
مجموعه: داده کاوی, یادگیری ماشینی برچسب ها: Data Mining, data science, Data Set, DataSet, Machine Learning, Public DataSet, پابلیک دیتا ست, پابلیک دیتاست, دیتا ست, دیتاست, علم داده