Хабр ПРО // Конвейер для «нового золота»: что можно сделать с большими данными
Update: 2021-09-101
Description
В этом выпуске мы обсуждаем сложности сбора и обработки данных. Работа с Big Data и получение из них ценности — это конвейер, на котором трудятся целые команды. Как идёт работа в начале и конце этого пути, нам расскажут два разных специалиста: data engineer и product owner.
О том, как и какими инструментами добываются данные, мы узнаем от Дмитрия Захарова — дата-инженера и тимлида разработки витрины данных в Сбере.
А Игнат Постный, исполнительный директор TAG Consulting, поведает, какие задачи он решает с помощью инструментов AI и какие барьеры есть на проде.
Содержание:
1:10 Кто есть кто: чем занимаются data engineer и product owner в Big Data
4:30 Этапы обработки больших данных в крупной финансовой компании
10:30 Особенности работы с естественным языком и неструктурированными документами
17:00 Как обойти проблему «Garbage in — garbage out» и дорогостоящих ошибок
22:00 Отсутствие стандартов и другие боли дата-сатанистов
28:20 Как строится витрина данных
30:50 Корпоративный ресурс vs творческий подход
34:00 Как объём данных влияет на качество их обработки
35:40 Сможет ли нейросеть понять естественный язык
40:30 Как попасть на «конвейер» Big Data, важен ли математический бэкграунд
47:30 Минимальный объём скиллов для дата-инженера
52:10 Правильный T-shape для дата-сайентиста
54:55 Каких прорывов больше всего ожидают в Data Science
1:00:55 Нерешённые проблемы и тенденции индустрии
Запись прямого эфира можно посмотреть тут: https://www.youtube.com/watch?v=fjBcIvVVkF4
О том, как и какими инструментами добываются данные, мы узнаем от Дмитрия Захарова — дата-инженера и тимлида разработки витрины данных в Сбере.
А Игнат Постный, исполнительный директор TAG Consulting, поведает, какие задачи он решает с помощью инструментов AI и какие барьеры есть на проде.
Содержание:
1:10 Кто есть кто: чем занимаются data engineer и product owner в Big Data
4:30 Этапы обработки больших данных в крупной финансовой компании
10:30 Особенности работы с естественным языком и неструктурированными документами
17:00 Как обойти проблему «Garbage in — garbage out» и дорогостоящих ошибок
22:00 Отсутствие стандартов и другие боли дата-сатанистов
28:20 Как строится витрина данных
30:50 Корпоративный ресурс vs творческий подход
34:00 Как объём данных влияет на качество их обработки
35:40 Сможет ли нейросеть понять естественный язык
40:30 Как попасть на «конвейер» Big Data, важен ли математический бэкграунд
47:30 Минимальный объём скиллов для дата-инженера
52:10 Правильный T-shape для дата-сайентиста
54:55 Каких прорывов больше всего ожидают в Data Science
1:00:55 Нерешённые проблемы и тенденции индустрии
Запись прямого эфира можно посмотреть тут: https://www.youtube.com/watch?v=fjBcIvVVkF4
Comments
Top Podcasts
The Best New Comedy Podcast Right Now – June 2024The Best News Podcast Right Now – June 2024The Best New Business Podcast Right Now – June 2024The Best New Sports Podcast Right Now – June 2024The Best New True Crime Podcast Right Now – June 2024The Best New Joe Rogan Experience Podcast Right Now – June 20The Best New Dan Bongino Show Podcast Right Now – June 20The Best New Mark Levin Podcast – June 2024
In Channel