Кто работает с большими данными: разбираем проекты и инструменты
Description
Мы позвали в подкаст bigdata-разработчика. Но во время разговора оказалось, что наш герой — дата-инженер. А мы хотели обратиться к нему как к дата-аналитику — это вообще другие ребята. Но за то, как разместить эту «дату» в хранилище, всё равно часто отвечает инженер, и называется это data governance. А ещё там есть свои собственные администраторы.
На факультете bigdata-аналитики GeekBrains Артём Гогин ведёт курсы по Hadoop, Spark и Kafka, а ещё он bigdata-разработчик в Сбербанке. Благодаря Артёму мы разберёмся в специальностях и обязанностях, а также в том, что это он вообще преподаёт.
0:59 Сколько данных в Сбербанке? Спойлер: много.
4:31 Почему для больших данных важна оперативная память?
10:01 Что делает дата-инженер в хранилище данных. Разбираемся в ролях: инженеры, аналитики, администраторы и не только.
15:03 Что такое Hadoop?
17:14 Можно ли назвать Windows базой данных?
22:07 А что такое Spark?
26:38 Переходим к Kafka. Становится сложнее.
31:54 Хозяева щеночков и кредиты — раскладываем по полочкам типичную задачу для банковской big data.
39:49 Когда вступает дата-инженер и при чём тут data governance.
47:11 Распространенные ошибки дата-инженеров.
Пишите нам на почту: podcast@geekbrains.ru
Ведущий: Николай Землянский
Звук: Фёдор Пудалов, Подкастерская