Что нужно для data science

Как стать Data Scientist в 2019 году

Data Scientist — это эксперт по аналитическим данным, который обладает техническими навыками для решения сложных задач, а также любопытством, которое помогает эти задачи ставить. Эти специалисты несут основную ответственность за преобразование данных в Результативные идеи с помощью самостоятельно созданных прогностических моделей и специального анализа в соответствии с требованиями компании.

Другими словами, быть Data Scientist — чрезвычайно важная работа в нынешнем веке данных. Настолько, что статья в Harvard Business Review даже назвала ее (и это побуждает стать одним из них!).«Самой сексуальной работой 21-го века»(и это побуждает стать одним из них!).

И также не повредит тому, что работа Data Scientist очень хорошо окупается при средней зарплате 1022 тыс. в год. Именно поэтому эта статья является полным руководством для того, чтобы стать Data Scientist в 2019 году. Это дорожная карта, которой вы можете следовать, если хотите узнать больше о Data Science.

Но все еще существует большая путаница между различиями в роли Data Analyst и Data Scientist, поэтому мы начнем с этой статьи и перейдем к другим темам, таким как требования к образованию и требования к навыкам, чтобы стать специалистом в этой области.

Разница между Data Analyst и Data Scientist

Очевидно, что и у Data Analyst, и у Data Scientist есть описание работы, связанное с данными. Но какие между ними есть различия? Это вопрос, который возникает у многих людей относительно различий между этими специальностями. Так что давайте проясним это сомнение здесь!

Data Analyst использует данные для решения различных проблем и получения полезных данных для компании. Это делается с помощью различных инструментов на четко определенных наборах данных, чтобы ответить на корпоративные вопросы, такие как «Почему маркетинговая кампания более эффективна в определенных регионах» или «Почему продажи продукта сократились в текущем квартале» и так далее. Для этого основными навыками, которыми обладает аналитик данных, являются Data Mining, R, SQL, статистический анализ, анализ данных и т. д. Фактически, многие Data Analysts получают дополнительные необходимые навыки и становятся Data Scientists.

С другой стороны, Data Scientist может разрабатывать новые процессы и алгоритмы для моделирования данных, создавать прогностические модели и выполнять пользовательский анализ данных в соответствии с требованиями компании. Таким образом, основное отличие заключается в том, что Data Scientist может использовать тяжелое кодирование для проектирования процессов моделирования данных, а не использовать уже существующие для получения ответов из данных, таких как Data Analyst. Для этого основными навыками, которыми обладает Data Scientist, являются Data Mining, R, SQL, Машинное обучение, Hadoop, Статистический анализ, Анализ данных, OOPS и т. д. Таким образом, причина, по которой ученым Data платят больше, чем аналитикам Data, заключается в их высокой уровни квалификации в сочетании с высоким спросом и низким предложением.

Требования к образованию, чтобы стать Data Scientist

Существует много путей достижения вашей цели, но имейте в виду, что большинство из этих путей проходят через колледж, поскольку четырехлетняя степень бакалавра является минимальным требованием.

Самый прямой путь заключается в том, что вы получаете степень бакалавра в области Data Science, поскольку она, несомненно, научит вас навыкам, необходимым для сбора, анализа и интерпретации больших объемов данных. Вы узнаете все о статистике, методах анализа, языках программирования и т. д.,, которые только помогут в вашей работе в качестве Data Scientist.

Другой обходной путь, который вы можете выбрать, — это получить любую техническую степень, которая поможет вам в роли Data Scientist. Некоторые из них — компьютерные науки, статистика, математика, экономика. После получения степени вы будете иметь навыки кодирования, обработки данных, количественного решения проблем. Которые можно применять в Data Science. Затем вы можете найти работу начального уровня или получить степень магистра и доктора наук для более специализированных знаний.

Требования к навыкам, чтобы стать Data Scientist

Для Data Scientist требуется несколько навыков, охватывающих различные области. Большинство из них упоминаются ниже:

1. Статистический анализ. Как специалист по обработке данных, ваша основная задача — собирать, анализировать и интерпретировать большие объемы данных и создавать полезные для компании идеи. Очевидно, что статистический анализ является большой частью описания работы.
Это означает, что вы должны быть знакомы хотя бы с основами статистического анализа, включая статистические тесты, распределения, линейную регрессию, теорию вероятностей, оценки максимального правдоподобия и т. д. И этого недостаточно! Немало важно иметь понятие о том, какие статистические методы являются подходящим подходом для данной проблемы данных, еще важнее понять, какие из них не являются. Кроме того, есть много аналитических инструментов, которые очень полезны в статистическом анализе для Data Scientist. Наиболее популярными из них являются SAS, Hadoop, Spark, Hive, Pig. Поэтому важно, чтобы вы хорошо их знали.

2. Навыки программирования. Навыки программирования являются необходимым инструментом в вашем арсенале. Это потому, что намного легче изучать и понимать данные, чтобы делать полезные выводы, если вы можете использовать определенные алгоритмы в соответствии со своими потребностями.

В общем, Python и R являются наиболее часто используемыми языками для этой цели. Python используется из-за его способности к статистическому анализу и его удобству к прочтению. Python также имеет различные пакеты для машинного обучения, визуализации данных, анализа данных и т. д. (Например, Scikit-learn), которые делают его подходящим для науки о данных. R также позволяет очень легко решить практически любую проблему в Data Science с помощью таких пакетов, как e1071, rpart и многих других.

3. Машинное обучение. Если вы каким-либо образом связаны с технологической отраслью, скорее всего, вы слышали о машинном обучении. Это в основном позволяет машинам изучать задачи из опыта, не программируя их специально. Это делается путем обучения машин с использованием различных моделей машинного обучения с использованием данных и различных алгоритмов.

Таким образом, вы должны быть знакомы с алгоритмами контролируемого и неконтролируемого обучения в машинном обучении, такими как Линейная регрессия, Логистическая регрессия, Кластеризация K-средних, Дерево решений, Ближайший сосед и прочее. К счастью, большинство алгоритмов машинного обучения могут быть реализованы с использованием R или Библиотеки Python (упомянутые выше), Поэтому вам не нужно быть экспертом по ним. В чем вы нуждаетесь, это в умении понять, какой алгоритм требуется, основываясь на типе данных, которые у вас есть, и на задаче, которую вы пытаетесь автоматизировать.

4. Управление данными и обработка данных. Данные играют большую роль в жизни Data Scientist. Таким образом, вы должны быть опытными в управлении данными, которое включает извлечение, преобразование и загрузку данных. Это означает, что вам нужно извлечь данные из различных источников, затем преобразовать их в необходимый формат для анализа и, наконец, загрузить их в хранилище данных. Для обработки этих данных существуют различные платформы, такие как Hadoop, Spark.

Теперь, когда вы завершили процесс управления данными, вы также должны быть знакомы с обработкой данных. Обработка данных — это в основном означает, что данные в хранилище должны быть очищены и унифицированы согласованным образом, прежде чем их можно будет проанализировать для получения каких-либо действенных данных.

5. Интуиция данных. Не стоит недооценивать силу интуиции данных. Фактически, это основной нетехнический навык, который отличает Data Scientist от Data Analyst. Интуиция данных в основном включает в себя поиск шаблонов в данных там, где их нет. Это почти то же самое, что найти иголку в стоге сена, которая является реальным потенциалом в огромной неисследованной куче данных.

Интуиция данных — это не тот навык, которому можно так просто научиться. Скорее это происходит из опыта и продолжающейся практики. А это, в свою очередь, делает вас гораздо более эффективным и ценным в своей роли Data Scientist.

6. Навыки общения.Вы должны хорошо владеть навыками общения, чтобы стать экспертом в области Data Scientist. Это потому, что, хоть вы и понимаете данные лучше, чем кто-либо другой, вам необходимо преобразовать полученные данные в количественную оценку, чтобы нетехническая команда смогла принять решение.

Это также может включать data storytelling! Таким образом, вы должны иметь возможность представлять свои данные в формате повествования с конкретными результатами и значениями, чтобы другие люди могли понять, что вы говорите. Это связано с тем, что в конечном итоге анализ данных становится менее важным, чем практические выводы, которые можно получить из данных, что, в свою очередь, приведет к росту бизнеса.

Источник

Большой гид по Data Science для начинающих: термины, применение, образование и вход в профессию

Наши друзья из «Цеха» опубликовали пошаговую инструкцию для начинающих в сфере Data Science от Елены Герасимовой, руководителя направления «Аналитика и Data Science» в Нетологии. Делимся с вами.

О чём речь

Data Sci­ence — де­я­тель­ность, свя­зан­ная с ана­ли­зом дан­ных и по­ис­ком луч­ших решений на их ос­но­ве. Рань­ше по­доб­ны­ми зада­ча­ми за­ни­ма­лись спе­ци­а­ли­сты по мате­ма­ти­ке и статистике. За­тем на по­мощь при­шел ис­кус­ствен­ный интеллект, что поз­во­ли­ло вклю­чить в ме­то­ды ана­ли­за оптимиза­цию и ин­фор­ма­ти­ку. Этот но­вый под­ход ока­зал­ся намно­го эф­фек­тив­нее.

Как стро­ит­ся про­цесс? Всё на­чи­на­ет­ся со сбо­ра боль­ших масси­вов структурированных и неструк­ту­ри­ро­ван­ных дан­ных и их пре­об­ра­зо­ва­ния в удоб­ный для вос­при­я­тия фор­мат. Дальше ис­поль­зу­ет­ся ви­зу­а­ли­за­ция, ра­бо­та со ста­ти­сти­кой и аналитиче­ские ме­то­ды — ма­шин­но­го и глу­бо­ко­го обу­че­ния, веро­ят­ност­ный ана­лиз и про­гноз­ные мо­де­ли, ней­рон­ные сети и их при­ме­не­ние для ре­ше­ния ак­ту­аль­ных задач.

Пять глав­ных терминов, которые нуж­но за­пом­нить

Что нужно для data science

Ис­кус­ствен­ный ин­тел­лект, ма­шин­ное обу­че­ние, глу­бо­кое обуче­ние и на­у­ка о данных — ос­нов­ные и са­мые по­пу­ляр­ные тер­ми­ны. Они близ­ки, но не эк­ви­ва­лент­ны друг дру­гу. На старте важ­но разо­брать­ся, чем они от­ли­ча­ют­ся.

Ис­кус­ствен­ный ин­тел­лект (Ar­ti­fi­cial In­tel­li­gence) — об­ласть, по­свя­щён­ная со­зда­нию ин­тел­лек­ту­аль­ных си­стем, работающих и дей­ству­ю­щих как люди. Её воз­ник­но­ве­ние связа­но с по­яв­ле­ни­ем ма­шин Ала­на Тью­рин­га в 1936 году. Несмот­ря на дол­гую историю раз­ви­тия, ис­кус­ствен­ный интеллект пока не спо­со­бен пол­но­стью за­ме­нить че­ло­ве­ка в боль­шин­стве об­ла­стей. А кон­ку­рен­ция ИИ с людь­ми в шахматах и шифро­ва­ние дан­ных — две сто­ро­ны од­ной ме­да­ли.

Ма­шин­ное обу­че­ние (Ma­chine learn­ing) — со­зда­ние инструмен­та для из­вле­че­ния зна­ний из дан­ных. Мо­де­ли ML обу­ча­ют­ся на дан­ных са­мо­сто­я­тель­но или по­этап­но: обу­че­ние с учи­те­лем на под­го­тов­лен­ных че­ло­ве­ком дан­ных и без учителя — ра­бо­та со сти­хий­ны­ми, за­шум­лен­ны­ми дан­ны­ми.

Глу­бо­кое обу­че­ние (Deep learn­ing) — со­зда­ние мно­го­слой­ных ней­рон­ных се­тей в об­ла­стях, где тре­бу­ет­ся бо­лее продвинутый или быст­рый ана­лиз и тра­ди­ци­он­ное ма­шин­ное обу­че­ние не справ­ля­ет­ся. «Глу­би­на» обес­пе­чи­ва­ет­ся некоторым количеством скры­тых сло­ев ней­ро­нов в сети, которые про­во­дят ма­те­ма­ти­че­ские вы­чис­ле­ния.

Боль­шие дан­ные (Big Data) — ра­бо­та с боль­шим объ­ё­мом ча­сто неструктурированных дан­ных. Спе­ци­фи­ка сфе­ры — это инстру­мен­ты и си­сте­мы, спо­соб­ные выдерживать вы­со­кие нагруз­ки.

На­у­ка об ана­ли­зе дан­ных (Data Sci­ence) — в ос­но­ве об­ла­сти ле­жит на­де­ле­ние смыслом мас­си­вов дан­ных, ви­зу­а­ли­за­ция, сбор идей и при­ня­тие ре­ше­ний на ос­но­ве этих дан­ных. Специа­ли­сты по ана­ли­зу дан­ных ис­поль­зу­ют неко­то­рые методы машин­но­го обу­че­ния и Big Data: об­лач­ные вы­чис­ле­ния, ин­стру­мен­ты для со­зда­ния вир­ту­аль­ной сре­ды раз­ра­бот­ки и мно­гое дру­гое.

Где при­ме­ня­ет­ся Data Sci­ence

Пять ос­нов­ных эта­пов в ра­бо­те с дан­ны­ми

Сбор. По­иск ка­на­лов, где мож­но со­би­рать дан­ные, и выбор ме­то­дов их по­лу­че­ния.

Про­вер­ка. Ва­ли­да­ция, ни­ве­ли­ро­ва­ние ано­ма­лий, ко­то­рые не вли­я­ют на ре­зуль­тат и ме­ша­ют даль­ней­ше­му ана­ли­зу.

Ана­лиз. Изу­че­ние дан­ных, под­твер­жде­ние предположений.

Ви­зу­а­ли­за­ция. Пред­став­ле­ние ин­фор­ма­ции в по­нят­ном для вос­при­я­тия виде: гра­фи­ки, диа­грам­мы.

Ре­ак­ция. При­ня­тие ре­ше­ний на ос­но­ве дан­ных. На­при­мер, из­ме­не­ние мар­ке­тин­го­вой стра­те­гии, уве­ли­че­ние бюд­же­та ком­па­нии.

Что нужно для data science

Руководитель направления «Аналитика и Data Science» в Нетологии

Что нужно для data scienceПрофессия

Data
Scientist

Об­ра­зо­ва­ние. Шесть ша­гов на пути к Data Sci­en­tist

Путь к этой про­фес­сии тру­ден: невоз­мож­но овла­деть все­ми ин­стру­мен­та­ми за месяц или даже год. При­дёт­ся по­сто­ян­но учить­ся, де­лать ма­лень­кие шаги каж­дый день, оши­бать­ся и пытать­ся вновь.

Шаг 1. Ста­ти­сти­ка, ма­те­ма­ти­ка, ли­ней­ная ал­геб­ра

Для се­рьез­но­го по­ни­ма­ния Data Sci­ence по­на­до­бит­ся фундамен­таль­ный курс по тео­рии ве­ро­ят­но­стей (математический ана­лиз как необ­хо­ди­мый ин­стру­мент в теории ве­ро­ят­но­стей), ли­ней­ной ал­геб­ре и ма­те­ма­ти­че­ской ста­ти­сти­ке.

Фун­да­мен­таль­ные ма­те­ма­ти­че­ские зна­ния важ­ны, что­бы анали­зи­ро­вать ре­зуль­та­ты при­ме­не­ния ал­го­рит­мов об­ра­бот­ки дан­ных. Силь­ные ин­же­не­ры в ма­шин­ном обучении без та­ко­го об­ра­зо­ва­ния есть, но это ско­рее ис­клю­че­ние.

Что по­чи­тать

«Эле­мен­ты ста­ти­сти­че­ско­го обу­че­ния», Тре­вор Ха­сти, Ро­берт Тиб­ши­ра­ни и Дже­ром Фрид­ман — если по­сле уче­бы в универси­те­те оста­лось мно­го про­бе­лов. Классические разделы ма­шин­но­го обу­че­ния пред­став­ле­ны в тер­ми­нах матема­ти­че­ской статисти­ки со стро­ги­ми ма­те­ма­ти­че­ски­ми вычис­ле­ни­я­ми.

«Глу­бо­кое обу­че­ние», Ян Гуд­фел­лоу. Луч­шая кни­га о математи­че­ских прин­ци­пах, ле­жа­щих в ос­но­ве ней­рон­ных сетей.

«Ней­рон­ные сети и глу­бо­кое обу­че­ние», Май­кл Ниль­сен. Для зна­ком­ства с основны­ми прин­ци­па­ми.

Пол­ное ру­ко­вод­ство по ма­те­ма­ти­ке и ста­ти­сти­ке для Data Science. Кру­тое и нескучное по­ша­го­вое ру­ко­вод­ство, ко­то­рое по­мо­жет сори­ен­ти­ро­вать­ся в ма­те­ма­ти­ке и ста­ти­сти­ке.

Вве­де­ние в ста­ти­сти­ку для Data Sci­ence по­мо­жет по­нять централь­ную пре­дель­ную тео­ре­му. Оно охва­ты­ва­ет генеральные со­во­куп­но­сти, вы­бор­ки и их рас­пре­де­ле­ние, содер­жит по­лез­ные ви­део­ма­те­ри­а­лы.

Пол­ное ру­ко­вод­ство для на­чи­на­ю­щих по ли­ней­ной ал­геб­ре для спе­ци­а­ли­стов по ана­ли­зу дан­ных. Всё, что необ­хо­ди­мо знать о ли­ней­ной ал­геб­ре.

Ли­ней­ная ал­геб­ра для Data Sci­en­tists. Ин­те­рес­ная ста­тья, знако­мя­щая с ос­но­ва­ми ли­ней­ной ал­геб­ры.

Шаг 2. Про­грам­ми­ро­ва­ние

Боль­шим пре­иму­ще­ством бу­дет зна­ком­ство с ос­но­ва­ми програм­ми­ро­ва­ния. Вы може­те немно­го упро­стить себе задачу: нач­ни­те изу­чать один язык и сосредоточьтесь на всех ню­ан­сах его син­так­си­са.

При вы­бо­ре язы­ка об­ра­ти­те вни­ма­ние на Python. Во-пер­вых, он иде­а­лен для новичков, его син­так­сис от­но­си­тель­но прост. Во-вто­рых, Python мно­го­функ­ци­о­на­лен и вос­тре­бо­ван на рынке тру­да.

Что по­чи­тать

«Ав­то­ма­ти­за­ция ру­тин­ных за­дач с по­мо­щью Python: практическое ру­ко­вод­ство для на­чи­на­ю­щих». Прак­ти­че­ское ру­ко­вод­ство для тех, кто учит­ся с нуля. До­ста­точ­но про­честь гла­ву «Ма­ни­пу­ли­ро­ва­ние стро­ка­ми» и вы­пол­нить практические за­да­ния из нее.

Codecad­emy — здесь вы на­учи­тесь хо­ро­ше­му об­ще­му синтакси­су.

Лег­кий спо­соб вы­учить Python 3 — бле­стя­щий ма­ну­ал, в котором объ­яс­ня­ют­ся основы.

Dataquest по­мо­жет осво­ить син­так­сис.

По­сле того, как изу­чи­те ос­но­вы Python, по­зна­комь­тесь с основ­ны­ми биб­лио­те­ка­ми:

Ма­шин­ное обу­че­ние и глу­бо­кое обу­че­ние:

Об­ра­бот­ка есте­ствен­но­го язы­ка:

Web scrap­ing (Ра­бо­та с web):

Что нужно для data science

Что нужно для data scienceкурс

Python
для анализа данных

Шаг 3. Ма­шин­ное обу­че­ние

Ком­пью­те­ры обу­ча­ют­ся дей­ство­вать са­мо­сто­я­тель­но, нам боль­ше не нуж­но пи­сать по­дроб­ные ин­струк­ции для выполнения опре­де­лён­ных за­дач. По­это­му ма­шин­ное обучение име­ет боль­шое зна­че­ние для прак­ти­че­ски лю­бой обла­сти, но преж­де всего бу­дет хо­ро­шо ра­бо­тать там, где есть Data Sci­ence.

Пер­вый шаг в изу­че­нии ма­шин­но­го обу­че­ния — зна­ком­ство с тре­мя его ос­нов­ны­ми фор­ма­ми.

1) Обу­че­ние с учи­те­лем — наи­бо­лее раз­ви­тая фор­ма машинного обу­че­ния. Идея в том, что­бы на ос­но­ве исторических дан­ных, для ко­то­рых нам из­вест­ны «правильные» зна­че­ния (це­ле­вые мет­ки), по­стро­ить функ­цию, пред­ска­зы­ва­ю­щую це­ле­вые мет­ки для но­вых дан­ных. Историче­ские дан­ные про­мар­ки­ро­ва­ны. Маркиров­ка (отнесение к ка­ко­му-либо клас­су) озна­ча­ет, что у вас есть особое вы­ход­ное зна­че­ние для каж­дой стро­ки дан­ных. В этом и за­клю­ча­ет­ся суть ал­го­рит­ма.

2) Обу­че­ние без учи­те­ля. У нас нет про­мар­ки­ро­ван­ных перемен­ных, а есть мно­го необ­ра­бо­тан­ных дан­ных. Это позволя­ет иден­ти­фи­ци­ро­вать то, что на­зы­ва­ет­ся закономерно­стя­ми в ис­то­ри­че­ских вход­ных дан­ных, а так­же сде­лать ин­те­рес­ные выво­ды из об­щей пер­спек­ти­вы. Итак, выход­ные дан­ные здесь от­сут­ству­ют, есть толь­ко шаб­лон, види­мый в некон­тро­ли­ру­е­мом на­бо­ре вход­ных дан­ных. Прелесть обу­че­ния без учи­те­ля в том, что оно под­да­ет­ся много­чис­лен­ным ком­би­на­ци­ям шабло­нов, по­это­му та­кие алгорит­мы слож­нее.

3) Обу­че­ние с под­креп­ле­ни­ем при­ме­ня­ет­ся, ко­гда у вас есть ал­го­ритм с при­ме­ра­ми, в ко­то­рых от­сут­ству­ет мар­ки­ров­ка, как при некон­тро­ли­ру­е­мом обу­че­нии. Од­на­ко вы мо­же­те дополнить при­мер по­ло­жи­тель­ны­ми или от­ри­ца­тель­ны­ми откли­ка­ми в со­от­вет­ствии с ре­ше­ни­я­ми, пред­ла­га­е­мы­ми алгорит­мом. Обу­че­ние с подкреплением свя­за­но с приложени­я­ми, для ко­то­рых ал­го­ритм дол­жен при­ни­мать реше­ния, име­ю­щие по­след­ствия. Это по­хо­же на обу­че­ние мето­дом проб и оши­бок. Интересный при­мер обу­че­ния с подкреп­ле­ни­ем — ко­гда ком­пью­те­ры учат­ся са­мо­сто­я­тель­но иг­рать в ви­део­иг­ры.

Что по­чи­тать

Ви­зу­а­ли­за­ция в ма­шин­ном обу­че­нии. От­лич­ная ви­зу­а­ли­за­ция, ко­то­рая по­мо­жет понять, как ис­поль­зу­ет­ся ма­шин­ное обучение.

Шаг 4. Data Min­ing (ана­лиз данных) и ви­зу­а­ли­за­ция данных

Data Min­ing — важ­ный ис­сле­до­ва­тель­ский про­цесс. Он включа­ет ана­лиз скры­тых мо­де­лей дан­ных в со­от­вет­ствии с раз­лич­ны­ми ва­ри­ан­та­ми пе­ре­во­да в по­лез­ную инфор­ма­цию, ко­то­рая со­би­ра­ет­ся и фор­ми­ру­ет­ся в хра­ни­ли­щах дан­ных для облегче­ния при­ня­тия де­ло­вых ре­ше­ний, при­зван­ных сократить рас­хо­ды и уве­ли­чить до­ход.

Что по­чи­тать и по­смот­реть

Как ра­бо­та­ет ана­лиз дан­ных. От­лич­ное ви­део с до­ход­чи­вым объ­яс­не­ни­ем ана­ли­за дан­ных.

«Ра­бо­та убор­щи­ка дан­ных — глав­ное пре­пят­ствие для ана­ли­за» — ин­те­рес­ная ста­тья, в ко­то­рой по­дроб­но рас­смат­ри­ва­ет­ся важ­ность ана­ли­за дан­ных в об­ла­сти Data Sci­ence.

Шаг 5. Прак­ти­че­ский опыт

За­ни­мать­ся ис­клю­чи­тель­но тео­ри­ей не очень ин­те­рес­но, важно по­про­бо­вать свои силы на прак­ти­ке. Вот несколь­ко хоро­ших ва­ри­ан­тов для это­го.

Ис­поль­зуй­те Kag­gle. Здесь про­хо­дят со­рев­но­ва­ния по ана­ли­зу дан­ных. Су­ще­ству­ет боль­шое ко­ли­че­ство от­кры­тых мас­си­вов дан­ных, ко­то­рые мож­но ана­ли­зи­ро­вать и пуб­ли­ко­вать свои резуль­та­ты. Кро­ме того, вы мо­же­те смот­реть скрип­ты, опуб­лико­ван­ные дру­ги­ми участ­ни­ка­ми и учить­ся на успеш­ном опыте.

Шаг 6. Под­твер­жде­ние квалифи­ка­ции

По­сле того, как вы изу­чи­те всё, что необ­хо­ди­мо для ана­ли­за дан­ных, и по­про­бу­е­те свои силы в от­кры­тых со­рев­но­ва­ни­ях, на­чи­най­те ис­кать ра­бо­ту. Пре­иму­ще­ством ста­нет неза­ви­си­мое под­твер­жде­ние ва­шей ква­ли­фи­ка­ции.

По­след­ний со­вет: не будь­те ко­пи­ей ко­пий, най­ди­те свой путь. Лю­бой мо­жет стать Data Sci­en­tist. В том чис­ле са­мо­сто­я­тель­но. В сво­бод­ном до­сту­пе есть всё необходи­мое: он­лайн-кур­сы, кни­ги, со­рев­но­ва­ния для прак­ти­ки.

Но не сто­ит приходить в сфе­ру толь­ко из-за моды. Что мы слы­шим о Data Sci­ence: это кру­то, это са­мая при­вле­ка­тель­ная ра­бо­та XXI века. Если это ос­нов­ной сти­мул для вас, его вряд ли хва­тит на­дол­го. Что­бы до­бить­ся успе­ха, важ­но по­лу­чать удо­воль­ствие от процесса.

Что нужно для data scienceкурс

Источник

Data Science с нуля: подробный гайд для начинающих

Можно ли погрузиться в мир данных, самостоятельно освоив Data Science с нуля? Спойлер: да. В этом материале мы вместе с Факультетом Искусственного интеллекта GeekUniversity расскажем о навыках и дисциплинах, которые необходимо освоить на пути к карьере Data Scientist.

Искусственный интеллект фокусируется на создании технологий, которые действуют и реагируют, как человеческий разум. В большинстве областей ИИ всё ещё не может полностью заменить человека.

Машинное обучение — техника, позволяющая смоделировать определённое поведение, основываясь на данных (например обучение нейронной сети, чтобы та могла отличать кошек от собак по фотографиям).

Глубокое обучение нейронных сетей — это создание многослойных нейронных сетей в областях, где требуется более продвинутый анализ, и традиционное машинное обучение с ним не справляется.

Наука о данных — сбор, визуализация и обработка данных, а также принятие решений на их основе.

Что нужно для data science

Чем занимается Data Scientist?

В Data Science обучении стоит отталкиваться от задач, поставленных перед специалистом. При этом задачи Data Scientist могут отличаться в зависимости от сферы деятельности компании. Вот несколько примеров:

Но для любой из вышеперечисленных задач всегда нужно выполнять примерно одни и те же шаги:

Что нужно знать?

Несмотря на то, что знать нужно довольно много, сейчас есть огромное число онлайн-курсов и книг, которые помогут получить нужные навыки гораздо быстрее.

Статистика, математика, линейная алгебра

Вам понадобится изучить фундаментальный курс по теории вероятностей, математический анализ, линейную алгебру и математическую статистику. Математические знания важны, чтобы уметь анализировать результаты применения алгоритмов обработки данных.

Книги по теме:

Машинное обучение

Машинное обучение позволяет научить компьютеры самостоятельно принимать решения, чтобы автоматизировать выполнение определённых задач. По этой причине МО применяется во многих областях, среди которых есть и наука о данных.

Чтобы освоить Data Science с нуля, первым делом нужно изучить три основных раздела машинного обучения:

Книги по теме

Что нужно уметь?

Программировать на Python

Большим преимуществом будет знание основ программирования. Но это довольно обширная и сложная область, и чтобы немного упростить её изучение, можно сосредоточиться на одном языке. Python идеально подходит начинающим — у него относительно простой синтаксис, он многофункциональный и часто используется для обработки данных.

Книги по теме:

После того, как вы изучите основы Python, можете ознакомиться с библиотеками для Дата Сайнс.

Машинное обучение и глубокое обучение:

Обработка естественного языка:

Собирать данные

Data Mining — важный аналитический процесс, предназначенный для исследования данных. Он позволяет находить скрытые паттерны, чтобы получить ранее неизвестную полезную информацию, необходимую для принятия каких-либо решений. Сюда же входит визуализация данных — представление информации в понятном графическом виде.

Книги по теме:

Хорошая стратегия — получить базу по Data Science в онлайн-университете, а потом решать более сложные практические задачи на стажировке в компании.

Что дальше?

После того, как вы изучите основы и пройдёте всевозможные Data Science курсы, попробуйте свои силы в открытых проектах или соревнованиях, а затем начинайте искать работу.

Как вы уже поняли, изучение Data Science с нуля — это не только теория. Для практического опыта хорошо подойдёт Kaggle — веб-сайт, где постоянно проводятся соревнования по анализу данных, в которых принимают участие все желающие. Также есть много открытых наборов данных — можете анализировать их и публиковать свои результаты. Также изучайте на Kaggle работы других участников и учитесь на чужом опыте.

Чтобы подтвердить свою квалификацию, зарабатывайте баллы за участие в соревнованиях Kaggle и публикуйте свои проекты на GitHub. Главное — не прекращать обучение и получать удовольствие от того, что вы делаете.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *