Разное

Крупномасштабное машинное обучение вместе с python: Крупномасштабное машинное обучение вместе с Python скачать бесплатно и без регистрации

Содержание

Крупномасштабное машинное обучение вместе с Python | Бастиан Шарден, Лука Массарон, Альберто Боскетти

Main
Крупномасштабное машинное обучение вместе с Python

Mark as downloaded

Бастиан Шарден, Лука Массарон, Альберто Боскетти

Учитесь быстро создавать мощные модели машинного обучения и развертывать крупномасштабные приложения прогнозирования!

С распространением больших данных растет спрос на вычислительную и алгоритмическую эффективность. Книга «Крупномасштабное машинное обучение на языке Python» открывает новую волну алгоритмов машинного обучения, которые удовлетворяют требованиям масштабируемости, а также высокой прогнозной точности. В первую очередь, мы начинаем с семейства алгоритмов машинного обучения, которые считаются масштабируемыми. С этим семейством алгоритмов мы проведем вас через три уровня масштабируемости. Первый уровень посвящен всему, что касается ускорения алгоритмов, которые могут использоваться на настольном компьютере. Мы предоставим советы относительно параллелизации и выделения памяти. Второй уровень касается более новых алгоритмов, которые специально предназначены для масштабируемости и могут обрабатывать большие файлы. Третий уровень непосредственно связан с машинным обучением в окружении больших данных. Мы также охватим самые эффективные методы машинного обучения в вычислительной парадигме MapReduce на платформах Hadoop и Spark на языке Python.

Publisher:

ДМК Пресс

ISBN 13:

978-5-9706-0506-6

Введение в машинное обучение с помощью Python и Scikit-Learn / Блог компании MLClass / Хабр

Привет, хабр!

Меня зовут Александр, я занимаюсь машинным обучением и анализом веб-графов (в основном — теоретическим), а также разработкой Big Data продуктов в одном из операторов Большой Тройки. Это мой первый пост — прошу, не судите строго!)

В последнее время ко мне все чаще стали обращаться люди, которые хотят научиться разрабатывать эффективные алгоритмы и участвовать в соревнованиях по машинному обучению с вопросом: «С чего начать?». Некоторое время назад я руководил разработкой инструментов Big Data для анализа медиа и социальных сетей в одном из учреждений Правительства РФ, и у меня остался некоторый материал, по которому обучалась моя команда и которым можно поделиться. Предполагается, что у читателя есть хорошее знание математики и машинного обучения (в команде были в основном выпускники МФТИ и студенты Школы Анализа Данных).


По-сути это было введение в Data Science. В последнее время эта наука стала довольно популярна. Все чаще проводятся соревнования по машинному обучению (например, Kaggle, TudedIT), зачастую с немалым бюджетом. Целью данной статьи является дать читателю быстрое введение инструменты машинного обучения, чтобы он мог как можно скорее участвовать в соревнованиях.

Наиболее распространенными инструментами Data Scientist’а на сегодняшний день являются R и Python. У каждого инструмента есть свои плюсы и минусы, однако, в последнее время по всем параметрам выигрывает Python (это исключительно мнение автора, к тому же пользующегося одновременно и тем и другим). Это стало после того, как появилась отлично документированная библиотека Scikit-Learn, в которой реализовано большое количество алгоритмов машинного обучения.

Сразу отметим, что в статье мы остановимся именно на алгоритмах Machine Learning. Первичный анализ данных лучше обычно проводится средствами пакета Pandas, разобраться с которым можно самостоятельно. Итак, сосредоточимся на реализации, для определенности полагая, что на входе у нас есть матрица обьект-признак, хранящаяюся в файле с расширением *.csv

Загрузка данных

В первую очередь данные необходимо загрузить в оперативную память, чтобы мы имели возможность работать с ними. Сама библиотека Scikit-Learn использует в своей реализации NumPy массивы, поэтому будем загружать *.csv файлы средствами NumPy. Загрузим один из датасетов из репозитория UCI Machine Learning Repository:

import numpy as np
import urllib
# url with dataset
url = "http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
# download the file
raw_data = urllib.urlopen(url)
# load the CSV file as a numpy matrix
dataset = np.loadtxt(raw_data, delimiter=",")
# separate the data from the target attributes
X = dataset[:,0:7]
y = dataset[:,8]

Далее во всех примерах будем работать с этим набором данных, а именно с матрицей обьект-признак X и значениями целевой переменной y.

Нормализация данных

Всем хорошо знакомо, что большинство градиентных методов (на которых по-сути и основаны почти все алгоритмы машинного обучения) сильно чуствительны к шкалированию данных. Поэтому перед запуском алгоритмов чаще всего делается либо нормализация, либо так называемая стандартизация. Нормализация предполагает замену номинальных признаков так, чтобы каждый из них лежал в диапазоне от 0 до 1. Стандартизация же подразумевает такую предобработку данных, после которой каждый признак имеет среднее 0 и дисперсию 1. В Scikit-Learn уже есть готовые для этого функции:

from sklearn import preprocessing
# normalize the data attributes
normalized_X = preprocessing.normalize(X)
# standardize the data attributes
standardized_X = preprocessing.scale(X)

Отбор признаков

Не секрет, что зачастую самым важным при решении задачи является умение правильно отобрать и даже создать признаки. В англоязычной литературе это называется Feature Selection и Feature Engineering. В то время как Future Engineering довольно творческий процесс и полагается больше на интуицию и экспертные знания, для Feature Selection есть уже большое количество готовых алгоритмов. «Древесные» алгоритмы допускают расчета информативности признаков:

from sklearn import metrics
from sklearn.ensemble import ExtraTreesClassifier
model = ExtraTreesClassifier()
model.fit(X, y)
# display the relative importance of each attribute
print(model.feature_importances_)

Все остальные методы так или иначе основаны на эффективном переборе подмножеств признаков с целью найти наилучшее подмножество, на которых построенная модель дает наилучшее качество. Одним из таких алгоритмов перебора является Recursive Feature Elimination алгоритм, который также доступен в библиотеке Scikit-Learn:

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
# create the RFE model and select 3 attributes
rfe = RFE(model, 3)
rfe = rfe.fit(X, y)
# summarize the selection of the attributes
print(rfe.support_)
print(rfe.ranking_)

Построение алгоритма

Как уже было отмечено, в Scikit-Learn реализованы все основные алгоритмы машинного обучения. Рассмотрим некоторые из них.

Логистическая регрессия

Чаще всего используется для решения задач классификации (бинарной), но допускается и многоклассовая классификация (так называемый one-vs-all метод). Достоинством этого алгоритма являеся то, что на выходе для каждого обьекта мы имеем вероятсность принадлежности классу

from sklearn import metrics
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X, y)
print(model)
# make predictions
expected = y
predicted = model.predict(X)
# summarize the fit of the model
print(metrics.classification_report(expected, predicted))
print(metrics.confusion_matrix(expected, predicted))
Наивный Байес

Также является одним из самых известных алгоритмов машинного обучения, основной задачей которого является восстановление плотностей распределения данных обучающей выборки. Зачастую этот метод дает хорошее качество в задачах именно многоклассовой классификации.

from sklearn import metrics
from sklearn.naive_bayes import GaussianNB
model = GaussianNB()
model.fit(X, y)
print(model)
# make predictions
expected = y
predicted = model.predict(X)
# summarize the fit of the model
print(metrics.classification_report(expected, predicted))
print(metrics.confusion_matrix(expected, predicted))
K-ближайших соседей

Метод kNN (k-Nearest Neighbors) часто используется как составная часть более сложного алгоритма классификации. Например, его оценку можно использовать как признак для обьекта. А иногда, простой kNN на хорошо подобранных признаках дает отличное качество. При грамотной настройке параметров (в основном — метрики) алгоритм дает зачастую хорошее качество в задачах регрессии

from sklearn import metrics
from sklearn.neighbors import KNeighborsClassifier
# fit a k-nearest neighbor model to the data
model = KNeighborsClassifier()
model.fit(X, y)
print(model)
# make predictions
expected = y
predicted = model.predict(X)
# summarize the fit of the model
print(metrics.classification_report(expected, predicted))
print(metrics.confusion_matrix(expected, predicted))
Деревья решений

Classification and Regression Trees (CART) часто используются в задачах, в которых обьекты имеют категориальные признаки и используется для задач регресии и классификации. Очень хорошо деревья подходят для многоклассовой классификации

from sklearn import metrics
from sklearn.tree import DecisionTreeClassifier
# fit a CART model to the data
model = DecisionTreeClassifier()
model.fit(X, y)
print(model)
# make predictions
expected = y
predicted = model.predict(X)
# summarize the fit of the model
print(metrics.classification_report(expected, predicted))
print(metrics.confusion_matrix(expected, predicted))
Метод опорных векторов

SVM (Support Vector Machines) является одним из самых известных алгоритмов машинного обучения, применяемых в основном для задачи классификации. Также как и логистическая регрессия, SVM допускает многоклассовую классификацию методом one-vs-all.

from sklearn import metrics
from sklearn.svm import SVC
# fit a SVM model to the data
model = SVC()
model.fit(X, y)
print(model)
# make predictions
expected = y
predicted = model.predict(X)
# summarize the fit of the model
print(metrics.classification_report(expected, predicted))
print(metrics.confusion_matrix(expected, predicted))

Помимо алгоритмов классификации и регрессии, в Scikit-Learn имеется огромное количество более сложных алгоритмов, в том числе кластеризации, а также реализованные техники построения композиций алгоритмов, в том числе Bagging и Boosting.

Оптимизация параметров алгоритма

Одним из самых сложных этапов в построении действительно эффективных алгоритмов является выбор правильных параметров. Обычно, это делается легче с опытом, но так или иначе приходится делать перебор. К счастью, в Scikit-Learn уже есть немало реализованных для этого функций

Для примера посмотрим на подбор параметра регуляризации, в котором мы по очереди перебирают несколько значений:

import numpy as np
from sklearn.linear_model import Ridge
from sklearn.grid_search import GridSearchCV
# prepare a range of alpha values to test
alphas = np.array([1,0.1,0.01,0.001,0.0001,0])
# create and fit a ridge regression model, testing each alpha
model = Ridge()
grid = GridSearchCV(estimator=model, param_grid=dict(alpha=alphas))
grid.fit(X, y)
print(grid)
# summarize the results of the grid search
print(grid.best_score_)
print(grid.best_estimator_.alpha)

Иногда более эффективным оказывается много раз выбрать случайно параметр из данного отрезка, померить качество алгоритма при данном параметре и выбрать тем самым луйший:

import numpy as np
from scipy.stats import uniform as sp_rand
from sklearn.linear_model import Ridge
from sklearn.grid_search import RandomizedSearchCV
# prepare a uniform distribution to sample for the alpha parameter
param_grid = {'alpha': sp_rand()}
# create and fit a ridge regression model, testing random alpha values
model = Ridge()
rsearch = RandomizedSearchCV(estimator=model, param_distributions=param_grid, n_iter=100)
rsearch.fit(X, y)
print(rsearch)
# summarize the results of the random parameter search
print(rsearch.best_score_)
print(rsearch.best_estimator_.alpha)

Мы рассмотрели весь процесс работы с библиотекой Scikit-Learn за исключением вывода результатов обратно в файл, что предлагается сделать читателю в качестве упражнения, потому как одним из достоинств Python (и самой библиотеки Scikit-Learn) по-сравнению с R является отличная документация. В следующих частях мы рассмотрим подробно каждый из разделов, в частности, затронем такую важную вещь как Feauture Engineering.

Я очень надеюсь, что данный материал поможет начинающим Data Scientist’ам как можно скорее приступить к решению задач машинного обучения на практике. В заключение хочу пожелать успехов и терпения тем, кто только начинает участвовать в соревнованиях по машинному обучению!

27 шпаргалок по машинному обучению и Python в 2017

Шпаргалки освободят ваш разум для более важных задач. Мы собрали 27 лучших шпаргалок, которые можно и нужно использовать.

Машинное обучение охватывает множество аспектов. Когда я только начинал интересоваться этим вопросом, наткнулся на шпаргалки, в которых собраны стандартные проверки на все случаи жизни. В конце концов, я разобрался и скопил больше двадцати шпаргалок, которыми хочу поделиться.

Да, машинное обучение развивается семимильными шагами, и, полагаю, моя коллекция устареет, но для июня 2017 года она более чем актуальна.

Если не хотите загружать все шпаргалки по отдельности, скачайте готовый zip-архив.

Существует немало полезных блок-схем и таблиц, затрагивающих машинное обучение. Ниже представлены наиболее полные и нужные.

Архитектуры Neural Network

С появлением новых архитектур нейронных сетей их стало сложно отслеживать. Большое количество сокращений (BiLSTM, DCGAN, DCIGN, а знает ли кто-то их все?) может обескуражить.

Поэтому я решил составить чит-лист, содержащий многие из этих архитектур. Большая часть относится к нейронным сетям. Есть только одна проблема в такой визуализации: не показан принцип использования. Например, вариационные автокодеры (VAE) могут выглядеть как автокодеры (AE), но процесс обучения другой.

Подробнее.

Блок-схема алгоритмов Microsoft Azure

Шпаргалки по машинному обучению Microsoft Azure помогут выбрать правильный алгоритм для модели прогнозирующей аналитики. Студия машинного обучения Microsoft Azure включает в себя большую библиотеку алгоритмов регрессии, классификации, кластеризации и обнаружения аномалий.

Подробнее.

Блок-схема алгоритмов SAS

Шпаргалки с алгоритмами SAS позволят быстро найти подходящий алгоритм для решения конкретной задачи. Представленные здесь алгоритмы – результат компиляции отзывов и советов от нескольких ученых по данным, разработчиков и экспертов в области машинного обучения.

Подробнее.

Собрание алгоритмов

Здесь представлены алгоритмы регрессии, регуляризации, кластеризации, дерева принятия решений, байесовский и другие алгоритмы. Все они сгруппированы согласно принципам работы.

Подробнее.

Также список в инфографическом формате:

Подробнее.

Алгоритм прогнозирования: «за/против»

Эти шпаргалки собрали лучшие алгоритмы, которые используются в прогнозирующем анализе. Прогнозирование – это процесс, в котором из набора входных переменных определяется значение выходной переменной.

Подробнее.

Неудивительно, что язык Python собрал большое комьюнити и множество онлайн-ресурсов. Для этого раздела я подобрал лучшие шпаргалки, с которыми работал.

Алгоритмы Python

Это коллекция из 10 наиболее часто используемых алгоритмов машинного обучения с кодами на Python и R. Чит-лист подойдет в качестве справочника, который поможет использовать полезные алгоритмы машинного обучения.

Подробнее.

Основы Python

Нельзя отрицать, что сегодня Python находится на подъеме. Шпаргалки включили в себя все необходимое, в том числе функции и определение объектно-ориентированного программирования на примере языка Python.

Подробнее.

А этот чит-лист станет замечательным дополнением вступительной части любого учебника по Python:

Подробнее.

NumPy

NumPy – это библиотека, которая позволяет Python быстро обрабатывать данные. При первом изучении могут возникнуть проблемы с запоминанием всех функций и методов, поэтому здесь собраны самые полезные шпаргалки, способные значительно облегчить изучение библиотеки. Расписаны импорт/экспорт, создание массивов, копирование, сортировка, перемещение элементов и многое другое.

Подробнее.

А здесь дополнительно представлена теоретическая часть:

Подробнее.

Схематическое представление некоторых данных можно найти в этом чит-листе:

Подробнее.

Вся необходимая информация с диаграммами:

Подробнее.

Pandas

Высокоуровневая библиотека Pandas предназначена для анализа данных. Соответствующие фреймы, панели, объекты, функционал пакета и другие необходимые сведения собраны в удобно организованном чит-листе:

Подробнее.

Схематизированное представление информации о библиотеке Pandas:

 

Подробнее.

А этот чит-лист включил в себя подробное изложение с примерами и таблицами:

Подробнее.

Matplotlib

Если же дополнить предыдущую библиотеку Pandas пакетом matplotlib, появится возможность рисовать графики к полученным данным. Именно за построение графиков на языке Python и отвечает matplotlib. Зачастую это первый пакет, связанный с визуализацией, который используют начинающие Python-программисты, и представленные шпаргалки помогут быстро сориентироваться в функционале данной библиотеки.

Подробнее.

Во втором чит-листе вы найдете больше примеров визуального представления графиков:

Подробнее.

Scikit-Learn

Библиотека Python с алгоритмами машинного обучения Scikit-Learn – не самая простая в изучении, но с чит-листами принцип ее работы становится максимально понятным.

Подробнее.

Схематизированное представление:

Подробнее.

С теорией, примерами и дополнительными материалами:

Подробнее.

TensorFlow

Еще одна библиотека для машинного обучения, но со своим функционалом и трудностями его восприятия. Ниже представлен полезный чит-лист для изучения TensorFlow:

Подробнее.

PyTorch

Хороший инструмент для исследований и экспериментов, обеспечивающий гибкость и высокую скорость обработки данных. Шпаргалки PyTorch в основном содержат примеры и дополнительные материалы. Этот не исключение:

Подробнее.

Если вы действительно хотите понять машинное обучение, вам нужно знать статистику (особенно вероятностную), линейную алгебру и некоторые исчисления. Я думал, что умру в процессе изучения всех тонкостей, и определенно нуждался в переподготовке. Эти шпаргалки дадут большую часть того, что вам нужно знать.

Вероятность

Подробнее.

Линейная алгебра

Подробнее.

Статистика

Подробнее.

Исчисление

Подробнее.

Путь Data Scientist’а в 2017
Как научиться data science?
Программирование на Python: от новичка до профессионала
Путь Python Junior-а в 2017
Машинное обучение за год
Большая подборка материалов по машинному обучению: книги, видеокурсы, онлайн-курсы

Машинное обучение на Python-е с интерактивными Jupyter демонстрациями / Хабр

Здравствуйте, Читатели!

Недавно я запустил репозиторий Homemade Machine Learning, который содержит примеры популярных алгоритмов и подходов машинного обучения, таких как линейная регрессия, логистическая регрессия, метод K-средних и нейронная сеть (многослойный перцептрон). Каждый алгоритм содержит интерактивные демо-странички, запускаемые в Jupyter NBViewer-e или Binder-e. Таким образом у каждого желающего есть возможность изменить тренировочные данные, параметры обучения и сразу же увидеть результат обучения, визуализации и прогнозирования модели у себя в браузере без установки Jupyter-а локально.

Целью данного репозитория является реализация алгоритмов почти с нуля, для того, чтобы иметь более детальное понимание математических моделей, который стоят за каждым из алгоритмов. Основными используемыми библиотеками стали NumPy и Pandas. Эти библиотеки используются для эффективных операций над матрицами, а так же для загрузки и парсинга CSV данных. В демо-страничках для построения графиков и визуализации тренировочных данных так же используются библиотеки Matplotlib и Plotly. В случае с логистической регрессией для минимизации функции потерь используется библиотека SciPy, но в остальных случаях градиентный спуск реализован на чистом NumPy/Python-е. Использование библиотек на подобии PyTorch или TensorFlow избегается из-за обучающей цели репозитория.

На данный момент в репозитории реализованы следующие алгоритмы…

Регрессия. Линейная регрессия.

В задачах, связанных с регрессией мы пытаемся предсказать реальное число на основании входящих данных. По сути мы строим линию/плоскость/n-мерную плоскость вдоль тренировочных данных, чтобы иметь возможность сделать прогноз для входных данных, отсутствующих в тренировочном сете. Это происходит, например, если мы хотим предсказать стоимость 2-х комнатной квартиры, в центре города N, на 7-м этаже.

Классификация. Логистическая регрессия.

В задачах связанных с классификацией мы разбиваем данные на классы в зависимости от параметров этих данных. Примером задачей классификации может быть распознавание спама. В зависимости от текста письма (входящие данные) мы относим каждое письмо к одному из двух классов («спам» или «не спам»).

Кластеризация. Метод K-средних.

В задачах кластеризации мы разбиваем наши данные на кластеры, которые заранее нам неизвестны. Эти алгоритмы могут использоваться для сегментации рынка, анализа социальных и не только сетей.

Нейронные сети. Многослойный перцептрон (MLP).

Нейронные сети скорее являются не алгоритмом, а «паттерном» или «фреймворком» для организации разных алгоритмов машинного обучения в одну систему для дальнейшего анализа сложных входных данных.

Поиск аномалий с помощью распределения Гаусса

В задачах связанных с поиском аномалий мы пытаемся выделить те экземпляры данных, которые выглядят «подозрительно» в сравнении с большинством других экземпляров. Например определение нетипичных (подозрительных) транзакций по банковской карте.


Я надеюсь, что вы найдете репозиторий полезным, либо экспериментируя с демонстрациями каждого алгоритма, либо читая о математических моделях, стоящими за ними, либо анализируя детали имплементации каждого из них.

Успешного кодинга!

Руководств по программированию на Python

Практическое руководство по машинному обучению с Python Введение

Что вам понадобится для этой серии руководств:

  • Установите numpy, matplotlib, pandas, sklearn и их зависимости
  • Или вы можете использовать предварительно скомпилированный и оптимизированный дистрибутив Python, который будет поставляться со всеми этими вещами, готовыми к работе здесь: ActivePython

Нужна помощь в установке пакетов с помощью pip? см. руководство по установке пакета

Привет, девочки и парни, добро пожаловать на углубленный практический курс машинного обучения.

Цель этого курса — дать вам целостное представление о машинном обучении, охватывая теорию, приложения и внутреннюю работу контролируемых, неконтролируемых и глубоких алгоритмов обучения.

В этой серии мы рассмотрим линейную регрессию, K ближайших соседей, машины опорных векторов (SVM), плоскую кластеризацию, иерархическую кластеризацию и нейронные сети.

Для каждого основного алгоритма, который мы рассмотрим, мы обсудим высокоуровневую интуицию алгоритмов и то, как они логически предназначены для работы.Затем мы применим алгоритмы в коде, используя наборы данных реального мира вместе с модулем, например, с Scikit-Learn. Наконец, мы погрузимся во внутреннюю работу каждого из алгоритмов, воссоздав их в коде с нуля, самостоятельно, включая всю задействованную математику. Это должно дать вам полное представление о том, как именно работают алгоритмы, как их можно настраивать, каковы преимущества и недостатки.

Для того, чтобы продолжить серию, я предлагаю вам иметь хотя бы базовое понимание Python.Если вы этого не сделаете, я предлагаю вам по крайней мере следовать руководству Python 3 Basics до установки модуля с помощью руководства pip. Если у вас есть базовое понимание Python и вы готовы учиться / задавать вопросы, вы сможете без проблем следовать здесь. Большинство алгоритмов машинного обучения на самом деле довольно просты, поскольку они необходимы для масштабирования до больших наборов данных. Математика — это обычно линейная алгебра, но я сделаю все возможное, чтобы объяснить всю математику.Если вас что-то смущает / теряет / интересует, спросите в разделе комментариев на YouTube, в сообществе здесь или отправьте мне электронное письмо. Вам также потребуются установленные Scikit-Learn и Pandas, а также другие, которые мы захватим по пути.

Машинное обучение было определено в 1959 году Артуром Сэмюэлем как «область обучения, которая дает компьютерам возможность учиться без явного программирования». Это означает передачу знаний машинам без жесткого программирования. Из того, что я лично обнаружил, люди, не входящие в сообщество программистов, в основном считают, что машинный интеллект жестко запрограммирован, и совершенно не осведомлены о реальности этой области.Одной из самых больших проблем, с которыми я столкнулся с машинным обучением, было обилие материала в обучающей части. Вы можете найти формулы, диаграммы, уравнения и множество теорий по теме машинного обучения, но очень мало о реальной «машинной» части, где вы фактически программируете машину и запускаете алгоритмы на реальных данных. В основном это связано с историей. В 50-х машины были довольно слабыми и в очень небольшом количестве, что и оставалось неизменным на протяжении полувека. Машинное обучение было в основном теоретическим и редко использовалось на практике.Например, машина опорных векторов (SVM) была создана Владимиром Вапником в Советском Союзе в 1963 году, но в основном оставалась незамеченной до 90-х годов, когда компания Bell Labs передала Вапник из Советского Союза в США. Нейронная сеть была задумана в 1940-х годах, но компьютеры в то время были далеко не достаточно мощными, чтобы нормально управлять ими, и так было до относительно недавнего времени.

«Идея» машинного обучения на протяжении истории несколько раз входила и выходила из моды, каждый раз заставляя людей думать, что это просто причуда.На самом деле, только совсем недавно мы смогли подвергнуть значительную часть машинного обучения любому достойному тесту. В настоящее время вы можете развернуть и арендовать кластер GPU за 100 000 долларов за несколько долларов в час, о чем мечтали аспиранты всего 10 лет назад. Машинное обучение получило новый импульс в середине 2000-х годов и с тех пор находится на подъеме, также пользуясь в целом законом Мура. Помимо этого, существует множество ресурсов, которые помогут вам в вашем путешествии с машинным обучением, например, этот учебник. Вы можете просто выполнить поиск в Google по этой теме и найти более чем достаточно информации, чтобы занять вас на некоторое время.

Это настолько важно, что теперь в нашем распоряжении есть модули и API, и вы можете очень легко заниматься машинным обучением, практически не зная, как это работает. Используя значения по умолчанию от Scikit-learn, вы можете сразу же получить точность 90-95% для многих задач. Машинное обучение во многом похоже на машину, вам не нужно много знать о том, как она работает, чтобы извлечь из нее невероятную пользу. Однако, если вы хотите раздвинуть пределы производительности и эффективности, вам нужно копаться под капотом, что больше похоже на то, как этот курс ориентирован.Если вы просто ищете краткое руководство по применению машинного обучения для данных, у меня уже есть учебник с простым классификационным примером и пример простой кластеризации (неконтролируемое машинное обучение) , которые вы можете проверить.

Несмотря на кажущийся возраст и зрелость машинного обучения, я бы сказал, что нет лучшего времени, чем сейчас, чтобы изучить его, поскольку вы действительно можете его использовать. Машины довольно мощные, та, над которой вы работаете, вероятно, быстро справится с большей частью этой серии.Данных в последнее время тоже очень много.

Первая тема, которую мы рассмотрим, — это регрессия, которую мы рассмотрим в следующем руководстве. Убедитесь, что у вас установлен Python 3, а также Pandas и Scikit-Learn.

Следующее руководство: Регрессия — Введение и данные

.

Машинное обучение на Python Примеры

  • Главная страница
  • Тестирование

      • Назад
      • Гибкое тестирование
      • BugZilla
      • Cucumber
      • Тестирование базы данных
      • JTL3000
      • J2
      • JUnit
      • LoadRunner
      • Ручное тестирование
      • Мобильное тестирование
      • Mantis
      • Почтальон
      • QTP
      • Назад
      • Центр качества (ALM)
      • RPA 9000 Testing SAPI
      • Управление
      • TestLink
  • SAP

      • Назад
      • ABAP
      • APO
      • Начинающий
      • Basis
      • BODS
      • BI
      • BPC
      • CO
      • Назад
      • CRM
      • Crystal Reports
      • FICO
      • 000 HRM
      • 000 HRM
      • Назад
      • PI / PO
      • PP
      • SD
      • SAPUI5
      • Безопасность
      • Менеджер решений
      • Successfactors
      • SAP Tutorials
  • Web
  • Web
  • AngularJS
  • ASP.Net
  • C
  • C #
  • C ++
  • CodeIgniter
  • СУБД
  • JavaScript
  • Назад
  • Java
  • JSP
  • Kotlin
  • Linux
  • Linux
  • Kotlin
  • Linux
  • js

  • Perl
  • Назад
  • PHP
  • PL / SQL
  • PostgreSQL
  • Python
  • ReactJS
  • Ruby & Rails
  • Scala
  • SQL
  • 000

  • SQL
  • 000

    0003 SQL

    000

    0003 SQL

    000

  • UML
  • VB.Net
  • VBScript
  • Веб-службы
  • WPF
  • Обязательно учите!

      • Назад
      • Бухгалтерский учет
      • Алгоритмы
      • Android
      • Блокчейн
      • Business Analyst
      • Создание веб-сайта
      • CCNA
      • Облачные вычисления
      • COBOL
    • COBOL
    • 900

  • Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *