Что настраивается в линейной регрессии веса признаков и смещение

Несколько слов о «линейной» регрессии

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещениеИногда так бывает: задачу можно решить чуть ли не арифметически, а на ум прежде всего приходят всякие интегралы Лебега и функции Бесселя. Вот начинаешь обучать нейронную сеть, потом добавляешь еще парочку скрытых слоев, экспериментируешь с количеством нейронов, функциями активации, потом вспоминаешь о SVM и Random Forest и начинаешь все сначала. И все же, несмотря на прямо таки изобилие занимательных статистических методов обучения, линейная регрессия остается одним из популярных инструментов. И для этого есть свои предпосылки, не последнее месте среди которых занимает интуитивность в интерпретации модели.

Немного формул

В простейшем случае линейную модель можно представить так:

где a0 — математическое ожидание зависимой переменной yi, когда переменная xi равна нулю; a1 — ожидаемое изменение зависимой переменной yi при изменении xi на единицу (этот коэффициент подбирают таким образом, чтобы величина ½Σ(yi-ŷi) 2 была минимальна — это так называемая «функция невязки»); εi — случайная ошибка.
При этом коэффициенты a1 и a0 можно выразить через матан коэффициент корреляции Пирсона, стандартные отклонения и средние значения переменных x и y:

Диагностика и ошибки модели

x (здесь и далее все примеры приводятся на языке R):

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

x вроде бы можно предположить линейную зависимость, но у остатков есть паттерн, а значит, чистая линейная регрессия тут не пройдет. А вот что на самом деле означает гетероскедастичность:

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Это так называемый «выброс», который может сильно исказить результаты и привести к ошибочным выводам. В R есть средства для его обнаружения — с помощью стандартизованой меры dfbetas и hat values:

Как видно, первый член вектора x4 оказывает заметно большее влияние на параметры регрессионной модели, нежели остальные, являясь, таким образом, выбросом.

Выбор модели при множественной регрессии

Естественно, что при множественной регрессии возникает вопрос: стоит ли учитывать все переменные? С одной стороны, казалось бы, что стоит, т.к. любая переменная потенциально несет полезную информацию. Кроме того, увеличивая количество переменных, мы увеличиваем и R 2 (кстати, именно по этой причине эту меру нельзя считать надежной при оценке качества модели). С другой стороны, стоить помнить о таких вещах, как AIC и BIC, которые вводят штрафы за сложность модели. Абсолютное значение информационного критерия само по себе не имеет смысла, поэтому надо сравнивать эти значения у нескольких моделей: в нашем случае — с разным количеством переменных. Модель с минимальным значением информационного критерия будет наилучшей (хотя тут есть о чем поспорить).
Рассмотрим датасет UScrime из библиотеки MASS:

Модель с наименьшим значением AIC имеет следующие параметры:

Таким образом, оптимальная модель с учетом AIC будет такой:

Если внимательно присмотреться, то окажется, что у переменных M.F и U1 довольно высокое значение p-value, что как бы намекает нам, что эти переменные не так уж и важны. Но p-value — довольно неоднозначная мера при оценки важности той или иной переменной для статистической модели. Наглядно этот факт демонстрирует пример:

p-values у каждой переменной — практически нуль, и можно предположить, что все переменные важны для этой линейной модели. Но на самом деле, если присмотреться к остаткам, выходит как-то так:

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

И все же, альтернативный подход основывается на дисперсионном анализе, в котором значения p-value играют ключевую роль. Сравним модель без переменной M.F с моделью, построенной с учетом только AIС:

Источник

Линейная регрессия в машинном обучении

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Линейная регрессия ( Linear regression ) — модель зависимости переменной x от одной или нескольких других переменных (факторов, регрессоров, независимых переменных) с линейной функцией зависимости.

Линейная регрессия относится к задаче определения «линии наилучшего соответствия» через набор точек данных и стала прос тым предшественником нелинейных методов, которые используют для обучения нейронных сетей. В этой статье покажем вам примеры линейной регрессии.

Применение линейной регрессии

Предположим, нам задан набор из 7 точек (таблица ниже).

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Цель линейной регрессии — поиск линии, которая наилучшим образом соответствует этим точкам. Напомним, что общее уравнение для прямой есть f (x) = m⋅x + b, где m — наклон линии, а b — его y-сдвиг. Таким образом, решение линейной регрессии определяет значения для m и b, так что f (x) приближается как можно ближе к y. Попробуем несколько случайных кандидатов:

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Довольно очевидно, что первые две линии не соответствуют нашим данным. Третья, похоже, лучше, чем две другие. Но как мы можем это проверить? Формально нам нужно выразить, насколько хорошо подходит линия, и мы можем это сделать, определив функцию потерь.

Функция потерь — метод наименьших квадратов

Функция потерь — это мера количества ошибок, которые наша линейная регрессия делает на наборе данных. Хотя есть разные функции потерь, все они вычисляют расстояние между предсказанным значением y( х) и его фактическим значением. Например, взяв строку из среднего примера выше, f(x)=−0.11⋅x+2.5, мы выделяем дистанцию ошибки между фактическими и прогнозируемыми значениями красными пунктирными линиями.

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Одна очень распространенная функция потерь называется средней квадратичной ошибкой (MSE). Чтобы вычислить MSE, мы просто берем все значения ошибок, считаем их квадраты длин и усредняем.

Вычислим MSE для каждой из трех функций выше: первая функция дает MSE 0,17, вторая — 0,08, а третья — 0,02. Неудивительно, что третья функция имеет самую низкую MSE, подтверждая нашу догадку, что это линия наилучшего соответствия.

Рассмотрим приведенный ниже рисунок, который использует две визуализации средней квадратичной ошибки в диапазоне, где наклон m находится между -2 и 4, а b между -6 и 8.

Глядя на два графика, мы видим, что наш MSE имеет форму удлиненной чаши, которая, по-видимому, сглаживается в овале, грубо центрированном по окрестности (m, p) ≈ (0.5, 1.0). Есл и мы построим MSE линейной регрессии для другого датасета, то получим аналогичную форму. Поскольку мы пытаемся минимизировать MSE, наша цель — выяснить, где находится самая низкая точка в чаше.

Больше размерностей

Вышеприведенный пример очень простой, он имеет только одну независимую переменную x и два параметра m и b. Что происходит, когда имеется больше переменных? В общем случае, если есть n переменных, их линейная функция может быть записана как:

Один трюк, который применяют, чтобы упростить это — думать о нашем смещении «b», как о еще одном весе, который всегда умножается на «фиктивное» входное значение 1. Другими словами:

Добавление измерений, на первый взгляд, ужасное усложнение проблемы, но оказывается, постановка задачи остается в точности одинаковой в 2, 3 или в любом количестве измерений. Существует функция потерь, которая выглядит как чаша — гипер-чаша! И, как и прежде, наша цель — найти самую нижнюю часть этой чаши, объективно наименьшее значение, которое функция потерь может иметь в отношении выбора параметров и набора данных.

Итак, как мы вычисляем, где именно эта точка на дне? Распространенный подход — обычный метод наименьших квадратов, который решает его аналитически. Когда есть только один или два параметра для решения, это может быть сделано вручную, и его обычно преподают во вводном курсе по статистике или линейной алгебре.

Проклятие нелинейности

Увы, обычный МНК не используют для оптимизации нейронных сетей, поэтому решение линейной регрессии будет оставлено как упражнение, оставленное читателю. Причина, по которой линейную регрессию не используют, заключается в том, что нейронные сети нелинейны.

Различие между линейными уравнениями, которые мы составили, и нейронной сетью — функция активации (например, сигмоида, tanh, ReLU или других).

Эта нелинейность означает, что параметры не действуют независимо друг от друга, влияя на форму функции потерь. Вместо того, чтобы иметь форму чаши, функция потерь нейронной сети более сложна. Она ухабиста и полна холмов и впадин. Свойство быть «чашеобразной» называется выпуклостью, и это ценное свойство в многопараметрической оптимизации. Выпуклая функция потерь гарантирует, что у нас есть глобальный минимум (нижняя часть чаши), и что все дороги под гору ведут к нему.

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещениеМинимум функции

Но, вводя нелинейность, мы теряем это удобство ради того, чтобы дать нейронным сетям гораздо большую «гибкость» при моделировании произвольных функций. Цена, которую мы платим, заключается в том, что больше нет простого способа найти минимум за один шаг аналитически. В этом случае мы вынуждены использовать многошаговый численный метод, чтобы прийти к решению. Хотя существует несколько альтернативных подходов, градиентный спуск остается самым популярным методом.

Источник

R — значит регрессия

Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин — Машинного Обучения и Больших Данных. Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии. Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале — уметь отличить сигнал от шума.

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Для этой цели мы будем использовать язык программирования и среду разработки R, который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.

Введение в регрессионный анализ

Основу регрессионного анализа составляет метод наименьших квадратов (МНК), в соответствии с которым в качестве уравнения регресии берется функция Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещениетакая, что сумма квадратов разностей Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещениеминимальна.

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Карл Гаусс открыл, или точнее воссоздал, МНК в возрасте 18 лет, однако впервые результаты были опубликованы Лежандром в 1805 г. По непроверенным данным метод был известен еще в древнем Китае, откуда он перекочевал в Японию и только затем попал в Европу. Европейцы не стали делать из этого секрета и успешно запустили в производство, обнаружив с его помощью траекторию карликовой планеты Церес в 1801 г.

Вид функции Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение, как правило, определен заранее, а с помощью МНК подбираются оптимальные значения неизвестных параметров. Метрикой рассеяния значений Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещениевокруг регрессии Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещениеявляется дисперсия.

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Линейная регрессия

Уравнения линейной регрессии можно записать в виде

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

В матричном виде это выгладит

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Случайная величина Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещениеможет быть интерпретирована как сумма из двух слагаемых:

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Ограничения линейной регрессии

Для того, чтобы использовать модель линейной регрессии необходимы некоторые допущения относительно распределения и свойств переменных.

Как обнаружить, что перечисленные выше условия не соблюдены? Ну, во первых довольно часто это видно невооруженным глазом на графике.

Неоднородность дисперсии
Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

При возрастании дисперсии с ростом независимой переменной имеем график в форме воронки.

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Нелинейную регрессии в некоторых случая также модно увидеть на графике довольно наглядно.

Тем не менее есть и вполне строгие формальные способы определить соблюдены ли условия линейной регрессии, или нарушены.

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

В этой формуле Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение— коэффициент взаимной детерминации между Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещениеи остальными факторами. Если хотя бы один из VIF-ов > 10, вполне резонно предположить наличие мультиколлинеарности.

Почему нам так важно соблюдение всех выше перечисленных условий? Все дело в Теореме Гаусса-Маркова, согласно которой оценка МНК является точной и эффективной лишь при соблюдении этих ограничений.

Как преодолеть эти ограничения

Нарушения одной или нескольких ограничений еще не приговор.

К сожалению, не все нарушения условий и дефекты линейной регрессии можно устранить с помощью натурального логарифма. Если имеет место автокорреляция возмущений к примеру, то лучше отступить на шаг назад и построить новую и лучшую модель.

Линейная регрессия плюсов на Хабре

Итак, довольно теоретического багажа и можно строить саму модель.
Мне давно было любопытно от чего зависит та самая зелененькая цифра, что указывает на рейтинг поста на Хабре. Собрав всю доступную статистику собственных постов, я решил прогнать ее через модель линейно регрессии.

Загружает данные из tsv файла.

Вопреки моим ожиданиям наибольшая отдача не от количества просмотров статьи, а от комментариев и публикаций в социальных сетях. Я также полагал, что число просмотров и комментариев будет иметь более сильную корреляцию, однако зависимость вполне умеренная — нет надобности исключать ни одну из независимых переменных.

В первой строке мы задаем параметры линейной регрессии. Строка points

. определяет зависимую переменную points и все остальные переменные в качестве регрессоров. Можно определить одну единственную независимую переменную через points

Перейдем теперь к расшифровке полученных результатов.

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Можно попытаться несколько улучшить модель, сглаживая нелинейные факторы: комментарии и посты в социальных сетях. Заменим значения переменных fb и comm их степенями.

Проверим значения параметров линейной регрессии.

Проверим, соблюдены ли условия применимости модели линейной регрессии? Тест Дарбина-Уотсона проверяет наличие автокорреляции возмущений.

И напоследок проверка неоднородности дисперсии с помощью теста Бройша-Пагана.

В заключение

Конечно наша модель линейной регрессии рейтинга Хабра-топиков получилось не самой удачной. Нам удалось объяснить не более, чем половину вариативности данных. Факторы надо чинить, чтобы избавляться от неоднородной дисперсии, с автокорреляцией тоже непонятно. Вообще данных маловато для сколь-нибудь серьезной оценки.

Но с другой стороны, это и хорошо. Иначе любой наспех написанный тролль-пост на Хабре автоматически набирал бы высокий рейтинг, а это к счастью не так.

Источник

Линейная регрессия

Линейная регрессия (Linear regression) — это это математическая модель, которая описывает связь нескольких переменных. Модели линейной регрессии представляют собой статистическую процедуру, помогающую прогнозировать будущее. Она применяется в научных сферах и в бизнесе, а в последние десятилетия используется в машинном обучении.

Для чего нужна линейная регрессия

Задача регрессии в машинном обучении — это предсказание одного параметра (Y) по известному параметру X, где X — набор параметров, характеризующий наблюдение.

Как работает линейная регрессия

Возьмем небольшой набор данных. Предположим, что это группа коттеджей, расположенных в одном районе. На оси Х обозначена их площадь, а на оси Y — рыночная стоимость. Чтобы увидеть, как стоимость дома зависит от его площади, построим регрессию.

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Это будет простая линейная регрессия с одной переменной. Изменится площадь дома — изменится и стоимость. Для вычисления используем стандартное уравнение регрессии: f (x) = b + m⋅x, где m — это наклон линии, а b — ее сдвиг по оси Y. То есть изменение коэффициентов m и b будет влиять на расположение прямой:

Провести прямую линию через все точки на графике не получится, если они расположены в хаотичном порядке. Поэтому с помощью линейной регрессии определяется оптимальный вариант расположения этой прямой. Некоторые точки все равно останутся на расстоянии, но оно должно быть минимальным. Расчет этого минимального расстояния от прямой до каждой точки называется функцией потерь.

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Для оценки точности регрессии используют разные метрики, например MSE (от англ. mean squared error — средняя квадратическая ошибка). Чем ниже MSE, тем лучше модель.

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

В первом случае MSE будет равна 0,17, во втором — 0,08, а в третьем — 0,02. Получается, что третья прямая лучше всего показывает зависимость цены дома от его площади.

Data Scientist с нуля

Получите востребованные IT-навыки за один год и станьте перспективным профессионалом. Мы поможем в трудоустройстве. Дополнительная скидка 5% по промокоду BLOG.

Расчет линейной регрессии в Python

Построим регрессию, чтобы узнать, как кассовые сборы фильма зависят от бюджета, который вложили в его производство.

Для расчета понадобится csv-файл, который содержит информацию о бюджетах и сборах 5 034 фильмов, которые когда-то выходили в прокат. Эти данные станут базой для исследования.

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Построим модель линейной регрессии с помощью Python. Для этого нужно импортировать несколько библиотек:

Модель линейной регрессии, которую нужно будет обучить, импортируется с помощью библиотеки sklearn. В качестве X будет колонка production_budget_usd, а в качестве Y – колонка worldwide_gross_usd.

На основе этих данных определяется нужный наклон прямой и расположение относительно осей координат. Это и будет нужной линейной регрессией, по которой можно предсказать сборы собственного фильма, выбрав подходящий бюджет.

В итоге получится график того, как соотносятся бюджеты и кассы у фильмов в списке. Каждая точка — это отдельная кинолента. На оси Х показаны затраты на производство, а на оси У — сколько она заработала. Теперь через эти точки нужно провести прямую так, чтобы она была максимально близка ко всем точкам на графике.

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Множественная линейная регрессия

В жизни кассовые сборы кино зависят не от одной переменной, а от совокупности разных факторов: популярности жанра, режиссера, каста актеров и затрат на промокампанию. Если рассчитать все факторы, влияющие на сборы, то уравнение изменится:

Стало f(x) = b + m1*x1 + … + mn*xn

Каждый коэффициент в нем показывает важность признаков. То есть множественная регрессия демонстрирует, как каждый параметр влияет на расположение прямой, и выбирает оптимальный вариант точно так же, как и линейная — с помощью функции потерь.

Data Scientist с нуля

Получите востребованные IT-навыки за один год и станьте перспективным профессионалом. Мы поможем в трудоустройстве. Дополнительная скидка 5% по промокоду BLOG.

Источник

Введение в линейную регрессию для машинного обучения

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Линейная регрессия, пожалуй, один из самых известных и хорошо понятных алгоритмов в статистике и машинном обучении.

В этом уроке вы откроете для себя алгоритм линейной регрессии, как он работает и как вы можете наилучшим образом использовать его в своих проектах машинного обучения. В этом уроке вы узнаете:

Почему линейная регрессия относится как к статистике, так и к машинному обучению.

Разве линейная регрессия происходит не от статистики?

Прежде чем мы погрузимся в детали линейной регрессии, вы можете спросить себя, почему мы смотрим на этот алгоритм.

Разве это не техника из статистики?

Машинное обучение, в частности, область прогнозного моделирования в первую очередь связана с минимизацией ошибки модели или созданием наиболее точных прогнозов, за счет объяснимости. При применении машинного обучения мы будем заимствовать, повторно использовать и «воровать» алгоритмы из разных областей, включая статистику, и использовать их в этих целях.

Таким образом, линейная регрессия была разработана в области статистики и изучается в качестве модели для понимания взаимосвязи между входными и выходными числовыми переменными, но заимствована машинным обучением. Это одного и статистический алгоритм, и алгоритм машинного обучения.

Далее рассмотрим некоторые из общих имен, используемых для обозначения модели линейной регрессии.

Многоликость линейной регрессии

Когда вы начинаете смотреть алгоритм линейной регрессии, все может казаться очень запутанным.

Алгоритм существует более 200 лет уже был изучен со всех возможных точек зрения и часто каждый новых угол имеет предназначение и другое название.

При наличии одной переменной ввода (x) метод называется простой линейной регрессией. Когда существует несколько переменных входных данных, литература из статистики часто называет метод множественной линейной регрессией.

Различные методы могут быть использованы для подготовки или обучения линейной регрессии. Наиболее распространенным из которых называется Метод наименьших квадратов (или сокращенно МНК, по-английски это Ordinary Least Squares или OLS).

Теперь, когда вы знаете некоторые названия, используемые для описания линейной регрессии, давайте подробнее рассмотрим используемое представление.

Представление модели линейной регрессии

Линейная регрессия является привлекательной моделью, потому что ее представление очень простое.

Линейное уравнение присваивает масштабный коэффициент (по-английски «scale factor») к каждому входному значению X. Масштабный коэффициент представлен греческой буквой Beta (B). Добавлен также один дополнительный коэффициент, добавляющую дополнительную степень свободы (например, движение вверх и вниз по двумерном участку) и часто называют коэффициентом перехвата или смещения (по-английски «bias coefficient»).

Наиболее простая задача регрессии когда на вход подается одна переменная X и есть одно выходящее значение Y. Форма подобной модели будет:

В случае многомерных измерений (т.е. когда у нас есть более одной вводной переменной (X)), линия превращается в плоскостью или гипер-плоскости. Таким образом, представление представляет собой форму уравнения и конкретные значения, используемые для коэффициентов (например, B0 и B1 в приведенном выше примере).

Когда конкретный элемент коэффициент Beta становится нулевым, он эффективно удаляет влияние входной переменной на модель и, следовательно, влияния на прогноз модели (0 * Xi = 0). Это становится актуальным, если вы применяете методы регуляризации (о них мы расскажем отдельно), которые изменяют алгоритм обучения, чтобы уменьшить сложность моделей регрессии, оказывая давление на абсолютный размер коэффициентов, приводя некоторые из них к нулю.

Теперь, когда мы понимаем что представление, используемое для модели линейной регрессии, давайте рассмотрим некоторые способы, с помощью которых мы можем узнать это представление из данных.

Методы линейной регрессии

Изучение модели линейной регрессии означает исследование получаемых значений коэффициентов, используемых в представлении, на основе имеющихся входных данных.

В этой части урока мы кратко рассмотрим четыре метода для подготовки модели для линейной регрессии. Это не достаточно информации для реализации их с нуля, но достаточно, чтобы получить первые впечатления и компромиссы при их вычислении.

Есть еще много методов, потому что модель линейной регрессии так хорошо изучены. Важно обратить внимание что на метод наименьших квадратов, потому что это наиболее распространенный метод, используемый в целом в индустрии для задач оптимизации. Также обратите внимание метод Градиентного спуска (по-английски Gradient descent), как наиболее распространенный метод применяемый в различных классах задач машинного обучения.

Простая линейная регрессия

При простой линейной регрессии, когда у нас есть один входной параметр, мы можем использовать статистику для оценки коэффициентов.

Для этого необходимо вычислить статистические свойства на таких данных, как среднее значение, стандартные отклонения, корреляции и ковариантность. Все данные должны быть доступны для обхода и расчета статистик.

Это весело, как упражнение полезно однажды проделать в Excel, но не очень полезно на практике.

Метод Наименьших Квадратов

Когда у нас есть более одной входной переменной, мы можем использовать метод наименьших квадратов для оценки значений коэффициентов.

Процедура наименьших квадратов направлена на минимизацию суммы квадратов остатков. Это означает, что, учитывая регрессионную линию через данные, мы вычисляем расстояние от каждой входной точки Xi до линии регрессии, берем квадрат этого расстояние и суммируем все квадраты подобных расстояний. Это количество, которое обычные наименее квадратов стремится свести к минимуму.

Такой подход рассматривает данные как матрицу и использует операции линейной алгебры для оценки оптимальных значений коэффициентов. Это означает, что все данные должны быть доступны, и вы должны иметь достаточно памяти, чтобы соответствовать размеру датасета и выполнять матричные операции.

Руками подобные вычисления уже давно никто не делает (кроме как для собственного понимания или в рамках домашнего задания в школе или ВУЗе). Вы просто вызываете процедуру из библиотеки линейной алгебры. Эта процедура умеет быстро вычислять подобные задачи.

Градиентный спуск

При наличии одной или нескольких переменных можно использовать процесс оптимизации значений коэффициентов путем итеративной минимизации ошибки модели на обучающихся данных.

Эта операция называется Градиентный спуск и работает, начиная со случайных значений для каждого коэффициента.

При использовании этого метода необходимо выбрать параметр скорости обучения (альфа), который определяет размер шага улучшения, чтобы взять на себя каждую итерацию процедуры.

На практике градиентный спуск является полезным методом, когда у вас очень большой датасет либо в количестве строк, либо в количестве столбцов, которые могут не уместиться в памяти.

Регуляризация

Есть расширения обучения линейной модели, называемой методами регуляризации. Они направлены как на минимизацию суммы квадратов ошибки модели на обучающих данных (с использованием метода наименьших квадратов), но и на снижения сложности модели (например, количество или абсолютный размер суммы всех коэффициентов в модели).

Два популярных примера процедуры регуляризации линейной регрессии:

Эти методы эффективны в использовании, когда есть коллинерность во входных данных и метод наименьших квадратов соответствует обучающим данным.

Теперь, когда вы знаете некоторые методы изучения коэффициентов в модели линейной регрессии, давайте посмотрим, как мы можем использовать модель для прогнозирования новых данных.

Прогнозирование с помощью с линейной регрессии

Учитывая, что представление является линейным уравнением, сделать прогнозы так же просто, как решение уравнения для определенного набора входов.

Рассмотрим конкретный пример. Представьте, что мы прогнозируем вес человека (y) в зависимости от высоты человека (x). Наше представление модели линейной регрессии для этой проблемы будет:

вес человека = B0 + B1 * высота человека

Например, позволяет использовать B0 = 0,1 и B1 = 0,5. Давайте подставим их и рассчитаем вес (в килограммах) для человека с ростом 182 сантиметра.

вес человека = 0,1 + 0,5 * 182

Вы можете видеть, что вышеупомянутое уравнение может быть отображена как линия в двух измерениях. Коэффициент B0 является нашей отправной точкой независимо от того, какой рост у человека. Мы можем пробежать через различные высоту человека от 100 до 200 сантиметров подставив в уравнению и получить значения веса, создавая нашу линию.

Пример высоты против веса линейной регрессии

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Теперь, когда мы знаем, как делать прогнозы с учетом выученной модели линейной регрессии, давайте посмотрим на некоторые правила для подготовки наших данных, чтобы максимально получить от этого типа модели.

Подготовка данных к линейной регрессии

Линейная регрессия изучается уже давно, и есть много литературы о том, как ваши данные должны быть структурированы, чтобы наилучшим образом использовать модель МНК или Градиентного спуска.

Таким образом, когда речь идет об этих требованиях и ожиданиях, они могут быть пугающими. Эти правила можно использовать скорее как практические правила при использовании алгоритмов линейной регрессии.

Используя эти эвристики и посмотреть, что лучше всего работает для вашей проблемы:

Что настраивается в линейной регрессии веса признаков и смещение. Смотреть фото Что настраивается в линейной регрессии веса признаков и смещение. Смотреть картинку Что настраивается в линейной регрессии веса признаков и смещение. Картинка про Что настраивается в линейной регрессии веса признаков и смещение. Фото Что настраивается в линейной регрессии веса признаков и смещение

Научим основам Python и Data Science на практике

Это не обычный теоритический курс, а онлайн-тренажер, с практикой на примерах рабочих задач, в котором вы можете учиться в любое удобное время 24/7. Вы получите реальный опыт, разрабатывая качественный код и анализируя реальные данные.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *