Инфраструктура data science: хранилища данных, ПО, витрины, озёра и важные скиллы

Update: 2023-02-01

Description

Содержание выпуска:

— Из каких компонентов состоит инфраструктура data science в идеальном варианте и как компании её выстроить.

— Из каких источников в систему приходят сырые данные.

— Куда данные сохраняются и в каком виде.

— Как предварительно обрабатываются и готовятся данные.

— Как отбираются данные для обработки и анализа.

— Как происходит анализ в DS и чем он отличается от традиционной аналитики.

— Какие решения и инструменты существуют для анализа и изучения данных в data science.

— Витрины, озёра данных, Kafka, S3, Hadoop и всё остальное.

— Чем занимается отдел data science. Какие роли связаны с data science.

— Как правильно формулировать задачу для специалистов по data science, какие ошибки в формулировках задач могут встречаться.

— Насколько data science — это программирование. Чем задачи и стиль программирования специалистов по data science отличаются от задач и стиля программирования обычных разработчиков.

— Какие языки и для каких задач используются.

— Что необходимо знать специалисту для первой работы. Кто такие мидлы и сеньоры.

— Какие зарплаты, специализации и перспективы есть в data science.

Полезные ссылки:

— Apache Spark https://spark.apache.org

— Apache Hadoop https://hadoop.apache.org

— Язык программирования Scala https://skillboxcode.mave.digital/ep-35

— Amazon Simple Storage Service (S3) https://aws.amazon.com/ru/s3

— Redis https://ru.wikipedia.org/wiki/Redis

— MLflow https://mlflow.org

— CI/CD https://ru.wikipedia.org/wiki/CI/CD

— Apache Kafka https://kafka.apache.org

— Debezium https://debezium.io

— Micro Batching https://bit.ly/40gr29I

— Витрина данных https://bit.ly/40h0tkO

— Слои в data science https://bit.ly/3JuwFes

— REST API https://bit.ly/3Jsrrjh

— Модель вычислений MapReduce https://ru.wikipedia.org/wiki/MapReduce

— Google File System https://ru.wikipedia.org/wiki/Google_File_System

— HDFS https://bit.ly/3XVnS9I

— Захват изменения данных https://bit.ly/3wIYR5V

— Apache NiFi https://ru.wikipedia.org/wiki/Apache_NiFi

— Nginx https://ru.wikipedia.org/wiki/Nginx

— Apache Airflow https://ru.wikipedia.org/wiki/Apache_Airflow

— Dimensional modeling https://en.wikipedia.org/wiki/Dimensional_modeling

— Сайт-тренажёр sql-ex.ru

— «Книга с кабанчиком» https://habr.com/ru/post/423981

— Codewars https://www.codewars.com

— LeetCode https://leetcode.com

— YouTube-канал «Диджитализируй!» https://bit.ly/3kWYvG0

— Марк Лутц. «Изучаем Python»

— Эви Немет, Гарт Снайдер, Трент Хейн, Бэн Уэйли, Дэн Макин. «Unix и Linux: руководство системного администратора»

Гость: Влад Гоцуляк. Директор по Data&AI в «Еаптеке». Окончил МФТИ. В свободное время читает лекции для студентов кафедры БИТ в МФТИ по big data.

Стартовать в программировании вместе со Skillbox: skillbox.ru/code

Наш подкаст удобно слушать на популярных платформах:

Castbox: https://bit.ly/3tZ3eJF

«Яндекс Музыка»: https://bit.ly/3FWQsOk

Apple Podcasts: https://apple.co/3KLXpVZ

Google Podcasts: https://bit.ly/3qFvYUY

Подписывайтесь, ставьте лайки, делитесь с друзьями и оставляйте комментарии!

Comments

In Channel

Сверим часы: как компьютеры считают время (и почему это так сложно)

2025-07-1001:06:33

Транзакции под микроскопом: big data, ИИ и платформы управления данными в банковской сфере

2025-06-2601:05:27

«Поливоркинг» и подработка в IT: плюсы, минусы, подводные камни

2025-05-2901:06:34

Путь в геймдев: языки, движки, зарплаты и шансы на успех

2025-05-1501:39:16

Разбираем Vue.js: основные концепции, тулинг, отличия от React и Angular, зарплаты

2025-04-2401:35:08

НЕ гайд о том, как запустить IT-стартап в США

2025-03-2801:42:44

Про исследования в IT, проблемы современных СУБД и неизбежный рост зоопарка технологий

2025-03-2152:06

Ещё один подкаст про наём в IT и аттестацию айтишников

2025-03-0601:19:26

Да кто такие эти ваши софт-скиллы и поддаются ли они прокачке?

2025-02-2752:06

Как дела у «Хабра»: кармическое проклятие, токсичные комментарии и провалившиеся механики

2025-02-0601:09:36

О(б)суждаем «Чистый код» Роберта Мартина

2025-01-2301:13:57

Подводим итоги 2024 года в IT

2024-12-2601:41:48

Битрикс24: как устроен отечественный PHP-фреймворк и чем отличается от конкурентов

2024-12-1801:22:03

Техподдержка изнутри: линии, KPI, взаимодействие с разработкой и обучение сотрудников

2024-12-0501:47:15

Улыбнитесь, вас снимает ИИ: что такое «умная видеоаналитика» и как её применяют в бизнесе

2024-11-2101:10:05

Менторство в IT: чему можно научиться у наставника и как самому им стать

2024-10-3101:44:17

Слишком умный маркетинг: как бизнес предсказывает наши желания с помощью ИИ и прочей магии

2024-10-1701:00:01

Минимализм во всём, или Ещё один разговор о Golang и Робе Пайке

2024-10-0301:28:29

Винда, Linux или macOS: какую ОС выбрать для программирования

2024-09-1901:28:31

Карьера разработчика: от джуна до директора и сооснователя стартапа

2024-08-3001:20:53

00:00

Инфраструктура data science: хранилища данных, ПО, витрины, озёра и важные скиллы

#box-pro-ellipsis-176349298424328{-webkit-line-clamp:2;}Инфраструктура data science: хранилища данных, ПО, витрины, озёра и важные скиллы

Инфраструктура data science: хранилища данных, ПО, витрины, озёра и важные скиллы

Инфраструктура data science: хранилища данных, ПО, витрины, озёра и важные скиллы