Аутстаффинг дата-инженеров для betPawa: реализация real-time аналитики

Свяжитесь с нами в любой удобной для вас форме

Менеджер

Написать в телеграмм

Онлайн
Телеграмм
или
Заполните форму

betPawa

Betting
Эстония
betPawa — букмекерская контора из Эстонии. В штате 800+ человек, из них 16 — аналитики и дата-инженеры.

Результат

Усилили data-команду заказчика ClickHouse инженерами, чтобы внедрить real-time репортинг

Цели клиента

  • Получить доступ к актуальным, автоматически обновляющимся данным об активности пользователей и финансовых показателях компании.

С какими данными работала компания

  • До обращения в LEFT JOIN у нее уже была система аналитики — с сайта компании регулярно собирались данные об активности пользователей и транзакциях (переводах, платежах, выплатах, депозитах) в СУБД MySQL.
  • Однако, система не справлялась с объемами данных, ETL-процесс занимал целую ночь и часто падал. В результате, к утру следующего дня еще не был готов отчет за предыдущий. А об аналитике в реальном времени в принципе речи не шло.

Задачи команды LEFT JOIN

  • Улучшить точность данных и обеспечить возможность работы с ними в реальном времени.
  • Заложить в систему аналитики потенциал для масштабирования.

Особенности проекта

  • Компания постоянно получает огромные массивы данных о пользователей и их платежах, и для нее критически важно, чтобы эти данные были актуальными и точными. Вместе с ростом клиентской базы растет и нагрузка, регулярно появляются новые задачи.
  • В связи с этим нужно было не просто разово оптимизировать систему аналитики, а постоянно поддерживать ее работоспособность, развивать, выполнять запросы для заказчика и обеспечивать бесперебойную передачу больших массивов данных из источников на дашборд.
  • Этот проект требовал полного погружения, и мы решили предложить сотрудничество в формате аутстаффа: мы подбираем дата-инженера с нужными навыками, и он все рабочее время посвящает betPawa, не отвлекаясь на другие задачи.

Технические решения

Стек проекта

  • Хранение данных

  • Брокер сообщений

  • Визуализация данных

Поиск инженеров данных

  • Хотя в компании уже была своя дата-команда, для настройки DWH нужна была особая экспертиза.
    • Опыт проектирования хранилищ для больших объемов данных — сейчас в нем несколько терабайт информации.
    • Умение работать с изменяющимися данными, которые постоянно погружаются в базу. Один из примеров — ставки игроков: меняется и их объем, и статус — выигрышная ставка может быстро проигрышной. Все эти изменения необходимо фиксировать в базе.
    • Большой опыт работы с каждым из элементов стека. Это важно, чтобы не только выстроить инфраструктуру, но видеть возможности для развития и улучшения, чтобы соответствовать растущим запросам бизнеса.
  • Специалиста с такими знаниями найти непросто — для этого нужна экспертиза уже со стороны работодателя, чтобы из всех кандидатов подобрать того, кто действительно подходит под эти требования. Если ошибиться с выбором, то увольнение и найм нового сотрудника отнимут у компании время и деньги.
  • В такой ситуации обращение в агентство помогает снизить риски. Мы не только быстрее найдем человека в своей внутренней базе, но еще и подтвердим уровень знаний.
  • Изначально мы нашли одного инженера, но когда объем задач вырос — наняли второго.
  • Сейчас оба сотрудника работают на betPawa full-time и взаимодействуют напрямую с руководителем отдела DWH, который входит в дата-команду компании.

Что сделали инженеры данных на проекте:

  • Разработали эффективную архитектуру хранения данных. Все данные поступали в MySQL, а оттуда те, которые нужны были нам для аналитических задач, отправлялись в ClickHouse. Эта СУБД отлично подходит работы с большими объемами информации благодаря высокой производительности.
  • Внедрили Apache Kafka, которая обеспечивает связь между разными компонентами системы аналитики, а также отказоустойчивость, потенциал для масштабирования и высокую скорость работы всей системы. Через топики Kafka данные поступают в ClickHouse из MySQL или напрямую из источников.
  • Для визуализации данных выбрали бесплатный инструмент Redash  с простым и понятным интерфейсом, в котором можно быстро собрать отчет под запрос заказчика.

Результаты

  • Аналитика в реальном времени. Заказчик больше не ждет, когда обновятся данные — они всегда в его распоряжении. Все компоненты системы были подобраны так, чтобы гарантировать высокую скорость работы. 
  • Система с высоким запасом прочности и масштабируемости. Она рассчитана на работу с большими потоками данных, отказоустойчива и защищена от ошибок или дублирующихся записей.
  • Постоянная поддержка и развитие системы аналитики силами нанятых LEFT JOIN дата-инженеров. Сотрудничество в формате аутстаффа оказалось для заказчика оптимальным вариантом, поэтому именно в таком режиме этот проект ведется уже больше 3 лет.

[Следующий кейс]

zigmund.online

[ Дальше ]