SDCast

SDCast


SDCast #80: в гостях Николай Голов, руководитель Data Platform в Авито

June 28, 2018

Встречайте 80-й выпуск SDCast’а! У меня в гостях Николай Голов, руководитель Data Platform в Авито. Помимо прочего, Николай преподаёт в НИУ ВШЭ и занимается научными исследованиями в области современных методологий построения хранилищ данных, таких как Data Vault и Anchor Modeling. В этом выпуске мы говорим о хранилищах данных, микросервисах и даже блокчейн!

Вначале мы обсудили тему построения хранилищ данных. Николай рассказал про подходы к построению эффективных и расширяемых хранилищ, обсудили способы хранения информации, механизмы загрузки данных в хранилище, отличие ETL и ELT подходов. Николай рассказал про устройство хранилища данных в Авито, которое построено на базе HP Vertica, о том, как оно появилось, эволюционировало и разрасталось. Для справки, в год в Авито в хранилище поступает порядка 2.5 петабайт !! сырых данных! При этом само хранилище занимает всего около 200 терабайт! Подискутировали и о будущем баз данных.

Затронули тему микросервисов, в особенности способы достижения консистентности данных в распределённой среде. Николай рассказал про возможные подходы к решению этой проблемы, и в особенности про паттерн «Сага», точнее даже целом семействе паттернов, какие бывают, как и где их стоит применять. Подискутировали мы о плюсах и минусах этих подходов, вспомнили про «event sourcing» и CQRS.

Николай интересуется темой блокчейн. Пообщались мы и про это направление в ИТ. Николай рассказал про Telegram Open Network (TON) и вообще современных тенденциях в мире блокчейн. Обсудили где и как в мире больших данных могут применятся блокчейн технологии.

Ссылки на ресурсы по темам выпуска:

* Статья Николая “Vertica+Anchor Modeling = запусти рост своей грибницы (https://habr.com/company/avito/blog/322510/)” на хабре. Она же на английском (https://tech.olx.com/vertica-anchor-modeling-grow-your-mycelium-68d623f795e5).
* Статья Николая “Материалы с VLDB, конференции о будущем баз данных (https://habr.com/company/avito/blog/338180/)” на хабре
* Статья Николая и Ларса Ронбака “Big Data normalization for massively parallel processing databases (https://www.sciencedirect.com/science/article/abs/pii/S0920548917300363)”
* Статья Николая и Ларса Ронбака “SQL QUERY OPTIMIZATION FOR HIGHLY NORMALIZED BIG DATA (https://bijournal.hse.ru/data/2015/10/12/1076327532/1.pdf)”
* XLIV Международная молодёжная научная конференция «Гагаринские чтения (https://gagarin.mai.ru/)»
* Microservice Pattern: Saga (http://microservices.io/patterns/data/saga.html)
* Статья на Википедии “Telegram Open Network (https://ru.wikipedia.org/wiki/Telegram_Open_Network)”


loaded