Jak rozwijać sieć sprzedaży
z pomocą data science

Kanał stacjonarny w zdecydowanej większość branż odgrywa kluczową rolę. Mimo obserwowanego dynamicznego wzrostu udziału e-commerce, nie zmieni się to w najbliższych latach. Otwarcie nowego punktu sprzedaży pociąga za sobą zazwyczaj konieczność znacznych inwestycji związanych z budową lub najmem i adaptacją lokalu, rekrutacją pracowników, a także ze zmianami w logistyce sieci. Dodatkowo istotny jest potencjalny negatywny wpływ nowego punktu na już istniejące. Dlatego decyzje o poszerzaniu sieci sprzedaży wiążą się z dużym ryzykiem. W dzisiejszym artykule pokażemy, w jaki sposób data science w połączeniu z danymi geoprzestrzennymi może pomóc w ograniczeniu tego ryzyka i ułatwić podejmowanie lepszych decyzji.

Kluczowe pytania

W kontekście lokalizacji punktów sprzedaży pytania, na jakie data science może pomóc znaleźć odpowiedź, to m.in.:

1) Czy to dobre miejsce na otwarcie nowego sklepu?

2) Czy nowy sklep nie będzie „kanibalizował” sprzedaży moich istniejących sklepów?

3) Jak dużo sklepów powinienem otworzyć, gdzie powinien je otwierać, jak powinna wyglądać optymalna sieć?

4)Które sklepy powinienem zamknąć? Jaki będzie efekt netto zamknięcia sklepu?

5) Czy istniejący sklep wykorzystuje potencjał swojej lokalizacji?

6) Czy jeśli nie otworzę sklepu w danym miejscu, ale zrobi to konkurencja, to wpłynie to negatywnie na moje istniejące sklepy? Na które? Jak bardzo?

Dzisiaj chciałbym skupić my się na dwóch pierwszych pytaniach i pokazać, w jaki sposób analiza danych pomoże podjąć właściwe decyzje.

Dane, dane, dane…

Na początek warto poświecić chwilę na przyjrzenie się źródłom danym, które wykorzystujemy w analizie. Można podzielić je na dane wewnętrzne i konieczne do pozyskania na zewnątrz. Do kluczowych danych wewnętrznych należą:

– historyczne dane sprzedażowe,

– charakterystyka punktów (powierzchnia, charakter lokalizacji – galeria, samodzielny lokal itd., zakres dostępnego asortymentu),

– lokalna aktywność (promocje, obecność w mediach, ulotki, gazetki, bilboardy),

– dane adresowe punktów.

Dane, które trzeba pozyskać z zewnątrz to przede wszystkim:

– dotyczące populacji, charakterystyki demograficznej (rozkład grup wiekowych, płci), dochodów i siły nabywczej,

– o sieci dróg, ich jakości/klasie i natężeniu ruchu,

– geolokalizacja punktów konkurencji,

– czas dojazdu do punktów własnych i konkurencji różnymi środkami lokomocji (w zależności od charakteru i gęstości sieci sprzedaży istotne mogą być różne sposoby transportu).

– czas dojazdu do punktów własnych i konkurencji różnymi środkami lokomocji (w zależności od charakteru i gęstości sieci sprzedaży istotne mogą być różne sposoby transportu).

Niektóre dane mogą być dostępne tylko na poziomie całej gminy (szczególnie dane z Głównego Urzędu Statystycznego). Jednak tam, gdzie to możliwe należy wykorzystywać dane o jak największej ziarnistości. Istnieją źródła, z których można pozyskać dane dla poszczególnych punktów adresowych (konkretnych bloków).

Przy analizie i prezentacji danych rozsądnym kompromisem pomiędzy szczegółem a ogółem może być tzw. siatka kilometrowa. Mapa jest wtedy dzielona na kwadraty o boku długości 1km. Przykłady takich właśnie map będą pojawiać się w dalszej części artykułu.

Dlaczego dokładne dane geograficzne są istotne?

Poniżej zobrazowany został prosty przykład różnic we wnioskach, do jakich można dojść w zależności od danych, jakie są do dyspozycji. Mapa po lewej stronie pokazuje odległość od sklepu (do 20 km). Jest to bardzo prosta do wyliczenia miara. Mogłoby się wydawać, że będzie wystarczającym przybliżeniem czasu dotarcia do sklepu. Niestety, jak widać na mapie po prawej stronie, uwzględnienie samej odległości od sklepu wprowadza nas w błąd. Dopiero pokazanie rzeczywistego czasu dojazdu na mapie pokazuje realny obraz zasięgu sklepu. Można zauważyć, że zasięg sklepu rozciąga się wzdłuż ciągów komunikacyjnych (w tym przykładzie rozchodzących się promieniście). Obszary leżące blisko siebie w rzeczywistości mogą cechować się różnym czasem dojazdu. Zbyt duże uproszczenie i rezygnacja z dokładnych danych geograficznych prowadzi do niepoprawnego oszacowania potencjału sklepu i potencjalnie błędnych decyzji.

W jakim kierunku opłaca się rozwijać sieć?

Przeanalizujemy teraz przykład sieci składającej się aktualnie z 4 sklepów. Na mapie poniżej widać ich zasięg. Z każdego obszaru (kwadratu) obliczony został czas dojazdu do najbliższego sklepu. Kierownictwo rozważa różne scenariusze dalszego rozwoju. Jednym z nich jest uzupełnienie „białych plam” w zasięgu sieci. Taki ruch może być interesujący z co najmniej dwóch względów. Po pierwsze na tym obszarze znajduje się miejscowość o, jak się wydaje, potencjale demograficznym, w której można by zlokalizować nowy punkt sprzedaży. Po drugie nowy sklep utworzony pomiędzy już istniejącymi można idealnie wpasować w istniejący łańcuch logistyczny.

W celu oparcia decyzji o dane zostaje przeprowadzona estymacja potencjału nowego sklepu oraz zasymulowany zostaje jego wpływ na dotychczasową sieć.

Mapa po lewej stronie pokazuje zasięg sklepów przed rozszerzeniem. Obszary zostały przypisane do sklepu o najkrótszym czasie dojazdu. Mapa po prawej stronie ilustruje, w jaki sposób zmieni się zasięg istniejących lokalizacji po poszerzeniu sieci oraz jaki będzie zasięg nowego punktu. Widać wyraźnie, że ogólny zasięg sieci zostanie rozszerzony o nowe obszary. Można też zauważyć, że obszary wszystkich z wyjątkiem jednego z dotychczasowych sklepów zostaną nieco uszczuplone. Do podjęcia decyzji nie wystarczy jednak wzrokowa ocena i analiza mapy. Potrzeba precyzyjnych prognoz. Tylko dokładne liczby pozwolą oszacować opłacalność rozważanej inwestycji.

Model predykcyjny

Z pomocą przychodzi model predykcyjny zbudowany w oparciu o uczenie maszynowe. Wykorzystując szeroki zakres dostępnych danych (sprzedażowych, demograficznych, geograficznych), model pozwala na precyzyjną estymację potencjału nowego sklepu i jego wpływu na istniejące punkty. Wykres poniżej przedstawia wyniki modelowania. Jego lewy słupek (‘Dotychczasowa sieć’) przedstawia poziom bazowy, czyli prognozowany poziom sprzedaży całej sieci, gdyby nowy sklep nie został uruchomiony. Kolejny słupek to estymacja sprzedaży w nowym punkcie. Wynik pokazuje, że zwiększy on potencjał sieci. Jednak w porównaniu z innymi, jego wkład będzie relatywnie niższy.

Nowy punkt zwiększy obroty sieci o około 12%. Kolejne słupki pokazują kanibalizację sprzedaży w dotychczasowych punktach. Tak jak przypuszczaliśmy, podczas analizy map, kanibalizacja dotknie 3 z 4 sklepów. Może się wydawać, że żaden sklep nie ucierpi znacząco – przeciętnie zaledwie o około 6% obrotu. Jednak będzie ona stanowiła aż 54% sprzedaży nowego punktu. Zatem większość obrotu nowego sklepu realizowałaby się kosztem dotychczasowych sklepów, a inkrementalny wpływ nowego punktu na łączne obroty sieci wyniósłby tylko około 5%.

Podsumowanie

Ostateczna decyzja o opłacalności inwestycji w otwarcie sklepu w rozważanym miejscu wymaga zestawienia inkrementalnych obrotów (i marży) z koniecznymi nakładami i kosztami działalności. W związku z tym analizę powinno rozszerzyć się także o prognozę marży. Bez tego mogłoby się okazać, że nowy sklep będzie różnił się od dotychczasowych pod względem typowego koszyka produktów, a co za tym idzie ich marżowości. Z pewnością warto rozważyć inne potencjalne lokalizacje, gdyż uzyskany w nich zwrot z inwestycji mógłby okazać się wyższy. Dodatkowo należałoby wziąć pod uwagę także możliwe działania potencjalnej konkurencji. Najwłaściwszym kierunkiem działania byłoby przeprowadzenie kompleksowej analizy i symulacji obejmującej wiele potencjalnych lokalizacji.

Nowoczesne metody optymalizacyjne, jakie na co dzień wykorzystujemy przy projektach w Data Science Logic, pozwalają na symulację wielu równoległych scenariuszy i znalezienie optymalnego kształtu sieci. Dzięki temu modele są w stanie wskazać, które lokalizacje warto otworzyć, a które należy zamknąć. Ostateczne decyzje zawsze należą do ludzi, jednak precyzyjne dane w połączeniu z odpowiednimi metodami ich analizy mogą pomóc je podjąć.

Jak uplift modeling może pomóc w wygenerowaniu nawet 30% dodatkowej sprzedaży?

Znalezienie kompromisu między maksymalizowaniem zysków i obniżaniem kosztów nie jest prostym zadaniem dla marketerów planujących kampanie marketingowe. Dla ROI kampanii kluczowy jest wybór właściwej grupy, do której chcemy skierować ofertę. Z pomocą przychodzi modelowanie uplift, które bada prawdopodobieństwo dokonania zakupu przez klientów.

Środek lata. Trochę „martwy” sezon. Rozmowy w dziale marketingu jednego z największych retailerów w Polsce dotyczą nie tylko wrażeń z urlopów, ale także tego jak choć trochę „rozruszać” sprzedaż. Jeden z pracowników sugeruje przeprowadzenie kampanii smsowej. Jest baza konsumentów, którą można skomunikować. Jest nawet dosyć atrakcyjna oferta, o której można napisać. Nic tylko wysyłać. Pojawia się jednak problem. Zbliża się koniec roku finansowego i w budżecie nie zostało już zbyt wiele środków. Wystarczy, żeby przeprowadzić wysyłkę do co najwyżej jednej piątej bazy. Entuzjazm nieco opada – fajerwerków nie będzie. Co jednak zrobić, żeby jak najlepiej wykorzystać ograniczony budżet i zmaksymalizować szanse na osiągnięcie zauważalnego efektu? Ktoś wpada na pomysł, żeby zwrócić się do zaprzyjaźnionych konsultantów data science. Czasu jest mało i trzeba działać szybko, ale doświadczony zespół Data Science Logic podejmuje wyzwanie.

Czy można przewidzieć zakup?

W oparciu o blisko 200 zmiennych opisujących konsumentów w bazie w zakresie historii transakcji, kupowanego asortymentu, wrażliwości na cenę, skłonności do kupowania online, interakcji z komunikacją marketingową, wizyt na stronie www retailera, analitycy budują model scoringowy przewidujący prawdopodobieństwo zainteresowania promowanym asortymentem dla każdego konsumenta, który mógłby zostać potencjalnie skomunikowany. Modele takie nazywane są w świecie data science product propensity models, likelihood to buy models lub response models.

Dostępny budżet podzielony zostanie na dwie części. Połowa konsumentów zostanie wyselekcjonowana dotychczasowym sposobem. Drugą część stanowić będzie 10% najbardziej zainteresowanych konsumentów według predykcji modelu. Dodatkowo spośród wszystkich zakwalifikowanych do wysyłki wylosowana zostanie grupa kontrolna, która nie otrzyma wiadomości. Taki podział pozwala na pomiar skuteczności dwóch metod targetowania oraz efektu samej komunikacji.

Wyniki: konwersja w grupie wybranej przez model blisko 3-krotnie wyższa niż w grupie wytypowanej dotychczasową metodą opartą o kryteria ekspercie. Rezultaty mówią same za siebie. Data science zwycięża. Czyżby?

Czy na pewno patrzymy na właściwy wskaźnik?

Z porównania konwersji wynika, że model poprawnie przewidział grupę konsumentów ponadprzeciętnie zainteresowanych zakupem. Czy jednak nie byli to klienci, którzy i tak dokonaliby transakcji nawet bez smsa? Jaki był faktyczny wpływ wysyłki na ich skłonność do zakupu? Odpowiedzi na te pytania możemy znaleźć, dokonując porównania z grupą kontrolną losowo wyłączoną z komunikacji. Wynika z niego, że różnica pomiędzy konwersją w całej grupie komunikowanej a konwersją w grupie kontrolnej wyniosła około 1,8 punktu procentowego. W grupie wytypowanej przez model natomiast około 2 p.proc. Różnica jest więc wciąż na korzyść modelu, ale nie jest już tak spektakularna. Oznacza to, że część konsumentów wskazanych przez model była wystarczająco zainteresowana zakupem już przed komunikacją i nie było potrzeby dodatkowo ich stymulować. W jaki więc sposób możemy sklasyfikować konsumentów pod kątem ich spodziewanej reakcji na komunikację marketingową?

Lewy górny kwadrat to grupa ‘Do not disturb’, którzy byliby zainteresowani transakcją, ale zaniepokojeni niechcianą komunikacją rezygnują z zakupu. Część ‘Lost cause’ to konsumenci, których nie jesteśmy w stanie przekonać do zakupu, nawet przy pomocy planowanej kampanii. Grupa ‘Sure thing’ to ludzie chętni do zakupu nawet bez komunikacji. Wreszcie prawy dolny kwadrat to ‘Persuadable’ czyli grupa, która nie jest jeszcze przekonana do zakupu i bodziec w postaci kampanii jest w stanie wpłynąć na decyzję. Mamy więc jedną grupę, na którą opłaca się oddziaływać komunikacją oraz trzy, do których nie warto kierować wysyłek. Jak jednak przewidzieć, kto jest w tej opłacalnej grupie?

Model uplift

Z pomocą ponownie przychodzi data science. Możliwe jest zbudowanie modelu, który przewiduje zmianę skłonności do zakupu pod wpływem komunikacji. Na podstawie danych zebranych przy pierwszej wysyłce, budujemy model uplift, który dopasuje konsumentów do odpowiednich grup. Obserwujemy wzrost uplift’u kamapnii – o prawie 0,4 p.p. w porównaniu do grupy wytypowanej przez model responsu. Pozornie niewiele, jednak przy odpowiedniej skali bazy, zyskujemy znaczącą ilość dodatkowych transakcji. W stosunku do poprzednio stosowanych metod selekcji model responsu wygenerował 10% więcej dodatkowych sprzedaży, a najbardziej zaawansowany model uplift aż prawie 30% więcej.

Tym, co kupujemy, wydając budżet na komunikację do konsumentów są tak naprawdę dodatkowe konwersje, których nie osiągnęlibyśmy gdyby nie kampania. Odpowiednio dobierając komunikowaną grupę, możemy z takim samym budżetem wygenerować znacząco więcej inkrementalnych zakupów. Modelowanie predykcyjne uplift dostępne wśród narzędzi data scientists może być tutaj istotną pomocą.

Dane z NPS – skuteczne narzędzie do optymalizacji komunikacji marketingowej

Badanie NPS (Net Promoter Score) jest znane już od blisko 20 lat. Opisane w artykule Harvard Business Review  przez Fredericka F. Reichhelda spotkało się z pozytywnym odbiorem marketerów i przyjęło się w wielu branżach. Szacuje się, że nawet 2/3 największych amerykańskich przedsiębiorstw (z listy Fortune 1000) wykorzystuje NPS. Bazowa wersja badania obejmuje tylko jedno proste pytanie: Na ile prawdopodobne jest, że – w skali od 0 do 10 –  polecisz firmę swojemu znajomemu?

Obrazek posiada pusty atrybut alt; plik o nazwie dsl1.jpg

Respondenci, którzy udzielają odpowiedzi 9 lub 10 są określani mianem promotorów. Są oni ambasadorami marki. Warto o nich zabiegać, ponieważ każdy z nich poleca markę nawet 3 kolejnym osobom. Oceniający w przedziale 0-6 to detraktorzy – niezadowoleni klienci zazwyczaj przekazują swoją opinię 9 innym osobom. Oceny 7 i 8 są uznawane za neutralne i pomija się je przy ustalaniu ostatecznego wyniku.

Zalety badania NPS

Narzędzie oceny lojalności klientów NPS ma kilka istotnych zalet. Przede wszystkim należą do nich względnie prosta forma realizacji badania, łatwość udzielenia odpowiedzi przez klienta – krótka ankieta i proste pytanie – a także nieskomplikowany sposób obliczania wyniku. Co równie ważne, wykazano istotną korelację pomiędzy wskaźnikiem NPS a stopą wzrostu przychodów – przykłady dla różnych branż można znaleźć m.in. we wspomnianym wcześniej artykule Reichhelda. Analizy przeprowadzone na polskim rynku pokazują związek między oceną NPS konsumenta a jego zachowaniami zakupowymi, a nawet skłonnościami do wchodzenia w interakcje z marką. Jedną z takich analiz chcemy przybliżyć w dzisiejszej odsłonie cyklu „We love data, so let’s date”.

W tym artykule skupimy się na możliwościach, jakie daje analiza odanonimizowanych odpowiedzi udzielanych w badaniu NPS. Przy czym warto podkreślić, że brak anonimowości oznacza tutaj nie tyle znajomość dokładnych danych osobowych respondenta, co raczej możliwość śledzenia jego kolejnych interakcji z marką, decyzji zakupowych i łączenia ich z oceną NPS. Czy da się jednoznacznie określić, na ile wiedza o nastawieniu konsumenta do marki wyrażonym w ankiecie NPS może pomóc w optymalizacji i personalizacji komunikacji marketingowej?

Badanie przeprowadzone przez Data Science Logic

Przedstawione wyniki pochodzą z badania zrealizowanego na próbie ponad 20 tysięcy uczestników programu lojalnościowego jednego z największych retailerów w Polsce. Pod uwagę braliśmy zachowania uczestników i ich interakcje z marką w okresie 6 miesięcy po wypełnieniu ankiety. Dzięki rozbudowanemu systemowi identyfikacji konsumenta możliwe było śledzenie działań uczestników w różnych kanałach. Obejmujmowały one m.in. zakupy w sklepach stacjonarnych, zakupy w sklepie internetowym, wejścia na stronę internetową marki, interakcja z mailingami (otwarcia, kliknięcia) i SMS-ami, a także interakcje z reklamami digital wyświetlanymi na stronach zewnętrznych.

Ogólny schemat przepływu danych dotyczących konsumenta

Ogólny schemat przepływu danych dotyczących konsumenta

Wnioski z opisywanego badania potwierdzają wcześniejsze obserwacje o zdecydowanie większej wartości klienta, który przejawia pozytywny stosunek do marki. Wpływ na większą wartość klienta-promotora ma także jego otwartość na działania komunikacyjne prowadzone przez markę. Promotorzy w porównaniu z detraktorami cechowali się o 12% wyższym wskaźnikiem click rate. Byli więc wyraźnie bardziej skłonni do zapoznawania się z treściami zawartymi w newsletterze oraz reagowania kliknięciami. 

Obrazek posiada pusty atrybut alt; plik o nazwie dsl3.jpg

Aby ułatwić analizę wyników przeprowadzonego badania, liczby na powyższym wykresie oraz na kolejnych prezentowanych w artykule zostały zindeksowane w taki sposób, że wartości badanej cechy dla detraktorów ustalono na poziomie 100, a jej wartość dla promotorów jest proporcjonalnie wyższa lub niższa.

Wyższa klikalność w mailingi linkujące do strony www lub e-commerce przekładała się na większą – nawet o 37%  – liczbę sesji na stronie www.

Obrazek posiada pusty atrybut alt; plik o nazwie dsl4.jpg

Jak się okazuje, promotorzy znacznie aktywniej reagowali na przekaz  marki w mediach zewnętrznych. W porównaniu z detraktorami, cechowali się blisko 40% wyższym zainteresowaniem po ekspozycji na reklamę digital.

Obrazek posiada pusty atrybut alt; plik o nazwie dsl5.jpg

Pozytywne nastawienie do marki, znacząca otwartość na komunikację newsletterową oraz większa skłonność do reagowania na przekaz reklamowy przekładają się na wyższe wydatki klientów. W okresie 6 miesięcy po wypełnieniu ankiety promotorzy wydali więcej o 11% w porównaniu z detraktorami marki.

Obrazek posiada pusty atrybut alt; plik o nazwie dsl6.jpg

Warto zauważyć, że różnica ta jest efektem zarówno większej częstotliwości, jak i wyższej przeciętnej wartości pojedynczej transakcji.

W jaki więc sposób  można wykorzystać wiedzę wynikającą z analizy NPS do skuteczniejszej komunikacji?

Jednym z pomysłów wartych zweryfikowania na jakie zdecydowaliśmy się w Data Science Logic było dostosowanie częstotliwości ekspozycji na media płatne do ostatniej oceny NPS konsumenta. Trop ten okazał się interesujący. Z przeanalizowanych danych wynikało jednoznacznie, że promotorzy i detraktorzy w różny sposób reagują na nasilającą się intensywność komunikacji. Zupełnie inaczej wygląda ich krzywa przesycenia reklamami. W przypadku promotorów zwiększenie częstotliwości ekspozycji początkowo powoduje wzrost responsu – przeciążenie przekazem reklamowym osiągnięte zostało przy 6 kontaktach. Dla detraktorów natomiast początkowy efekt zwiększania liczby kontaktów był ujemny. Dopiero po przekroczeniu 8 wyświetleń efekt był porównywalny z grupą promotorów.

Obrazek posiada pusty atrybut alt; plik o nazwie dsl7.jpg

Wykorzystując te obserwacje do optymalizacji liczby wyświetleń, można przyjąć 6 jako limit dla promotorów. Jeżeli w tym czasie nie przekonaliśmy promotora, należy odpuścić dalsze próby. Oszczędzamy w ten sposób budżet i zmniejszamy ryzyko przesycenia konsumenta reklamami. Dzięki temu nie dopuszczamy do przejścia promotora na stronę niezadowolonych klientów. Zupełnie inne wytyczne przyjmujemy natomiast dla detraktorów. W ich przypadku opłaca się dążyć do osiągnięcia 8 i więcej wyświetleń. Zastosowanie opisanej optymalizacji pozwoliłoby znacząco zredukować liczbę kontaktów i oszczędzić nawet 80% budżetu, przy takim samym (a nawet potencjalnie nieco lepszym – o 4%) efekcie. W naszej analizie przyjęliśmy założenie, że wpływamy tylko na częstotliwość komunikacji, wszystko inne pozostawiając bez zmian.

Dalsze zwiększenie efektywności można uzyskać, testując zróżnicowanie także treści kierowanych do konsumenta. Komunikaty można dobierać w zależności od jego ostatniej oraz wcześniejszych ocen NPS. Dotyczy to zarówno reklamy płatnej, jak i komunikacji w oparciu o media własne: mailing, sms, personalizacja strony www.

Obrazek posiada pusty atrybut alt; plik o nazwie dsl8.jpg

Podsumowanie

Podsumowując, przedstawione wyniki, należy zaznaczyć, że są one zależne od uwarunkowań specyficznych dla konkretnej firmy. Zależą m.in. od branży, częstotliwości zakupów, charakteru i aktywności konkurencji, cech konsumentów. Warto zatem przeprowadzić podobną analizę wykorzystując własne dane. Do tego potrzebne będzie badanie NPS, prowadzone systematycznie umożliwiające połączenie odpowiedzi z identyfikatorem konsumenta oraz szeroki wachlarz kanałów, w których śledzone są interakcje konsumenta z marką. Im szerszy zakres punktów styku z marką, w których możemy rejestrować zachowania konsumenta tym większe możliwości optymalizacji działań. Dane z badania NPS mogą stanowić wartościowe uzupełnienie, otwierając dodatkowe pola.

Wskaźnik Net Promoter Score to więcej niż tylko pytanie. Dzięki niemu możemy lepiej poznać naszych klientów. NPS jest silnym wskaźnikiem lojalności i jak się okazuje może posłużyć do optymalizowania komunikacji marketingowej. Zadanie jednego prostego pytania przyczyni się do redukcji kosztów na media płatne i docierania z właściwym przekazem do właściwych klientów. O ile tylko odpowiedzi, które uzyskamy, połączymy z innymi, cennymi informacjami o naszych klientach.

Cechy efektywnej/efektywnego data scientist

W ostatnich latach osoby zajmujące się Data Science to jedni z najbardziej poszukiwanych specjalistów na rynku pracy. Zapotrzebowanie na data scientist wykazują już nie tylko branże z obszaru IT, ale także firmy, które do tej pory nie miały do czynienia z analizą dużych zasobów informacji.  

Jakie kompetencje powinien posiadać data scientist? Co powinno go charakteryzować? Czy są kompetencje, bez których nie można wykonywać tego zawodu? Najlepsi specjaliści opisywani są pewnymi cechami, które wyróżniają ich spośród tłumu zwykłych analityków.

Gdy myślimy o pracownikach z tej dziedziny zwykle patrzymy na kwalifikacje analityczne. O wiele rzadziej wspomina się o zdolnościach „miękkich”, których posiadanie także w tej branży jest niezwykle ważne. data scientist zanim rozpocznie pracę, musi opanować kilka istotnych umiejętności, bez których praca w tej interdyscyplinarnej dziedzinie nie byłaby możliwa.

Oto nasza (subiektywna) lista cech, które każdy dobry data scientist powinien posiadać, a zaczniemy ją trochę przewrotnie od czegoś, o czym raczej mało kto wspomina na początku od zdolności komunikacyjnych.

KOMUNIKACJA

W pracy data scientist niezwykle ważne jest umiejętne komunikowanie. Kluczem do sukcesu jest efektywna komunikacji podczas każdego etapu projektu. Specjalista musi trafnie porozumiewać się podczas definiowania problemu, analizowania go, w trakcie jego rozwiązywania, a także, jak się okazuje, tuż po jego rozwiązaniu – w trakcie prezentacji innym członkom zespołu. Trzeba umieć rozmawiać zarówno z innymi data scientists, jak i osobami, które nie znają dobrze branży. Wyjaśnienie danych nieanalitycznym członkom zespołu to zwykle najbardziej skomplikowany etap procesu komunikacji podczas całego projektu – trzeba to robić zrozumiale i używać niewyszukanego języka, tak aby członkowie zespołu bez przygotowania technicznego mogli przyswoić temat. Ważne jest, aby umieć tłumaczyć skomplikowane rzeczy w zrozumiały sposób. Data scientist musi pamiętać, aby dostosowywać sposób komunikacji do możliwości i potrzeb swojego odbiorcy.

ZNAJOMOŚĆ ALGORYTMÓW I METOD

Teoretyczna i praktyczna znajomość algorytmów to także solidne podstawy pozwalające na rozumienie i uczenie się nowych podejść. Naukowcy zajmujący się analizą danych powinni mieć łatwość w przyswajaniu nowych metod. Big data to temat, który właśnie przeżywa rozkwit i z pewnością odkryje przed nami jeszcze wiele swoich możliwości. To co znamy dziś, jutro może okazać się zdezaktualizowane przez nowe rozwiązania, dlatego efektywny data scientist powinien z łatwością wykorzystywać nowe, nieznane dotąd dla siebie metody i rozwiązania. Studiowanie i praktyczne wykorzystanie algorytmów rozwija intuicję, co przyczynia się do efektywniejszego rozwiązywania problemów.

UMIEJĘTNOŚCI PROGRAMISTYCZNE

Być może wydaje się to oczywiste, ale jest to podstawa, o której nie można zapomnieć, kompletując listę umiejętności data scientist. Konieczna jest dobra znajomość przynajmniej jednego języka programowania: R lub Python, a także, co ważne, posiadanie zdolność do szybkiego przyswajania nowych, uczenia się i wykorzystywania nieznanych do tej pory narzędzi. Branża data science szybko się rozwija, dlatego nie można przestawać się szkolić. Umiejętności programistyczne, które posiada data scientsit powinny stale się poszerzać. Świat narzędzi data science zmienia się wyjątkowo szybko. Dobry data scientist powinien mieć chęć ciągłego uczenia się
i zdobywania nowych kwalifikacji.

Co więcej, jest to cecha wyróżniająca data scientist od zwykłego analityka. Swoje rozwiązania musi zaprogramować tak, aby działały w sposób automatyczny. Analizy ogromnych zasobów danych nie da zrobić się na kartce papieru, dlatego znajomość któregoś
z języków programowania jest niezbędna, aby móc wykonywać pracę efektywnie.

ZNAJOMOŚĆ SQL

Kolejną cechą, powiązaną z poprzednią umiejętnością, jest znajomość języka zapytań SQL. Można się zastanawiać, czy nie powinno być to potraktowane po prostu jako jeden z języków programowania. Chcę jednak podkreślić jego szczególną rolę. Pomimo rozkwitu baz NoSQL i różnorodnych alternatywnych sposobów przechowywania dużych zbiorów danych, to jednak SQL jest wciąż niezastąpiony w wielu rozwiązaniach. Stanowi najbardziej efektywnych sposób pobierania i przygotowania do dalszej pracy. Znajomość SQL jest to niezbędną kompetencją data scientist ze względu na częstą pracę z ogromnymi bazami danych.

CIEKAWOŚĆ

Data scientist musi być ciekawski, zadawać pytania i szukać odpowiedzi, kopać cały czas głębiej. Jego cechą powinna być otwartość na nowe doświadczenia i stałe poszukiwanie lepszych, nowocześniejszych rozwiązań. Branża data science zmienia się z dnia na dzień. Powstają coraz to lepsze rozwiązania i ciekawsze metody. Pracując w tym zawodzie, trzeba stale rozwijać swoje umiejętności, aby któregoś dnia nie okazało się, że przespaliśmy pewną innowację, bez znajomości której nie jesteśmy już tak wydajni, jak kiedyś. W branży liczy się efektywność, wydajność i prostota rozwiązań, dlatego niezaspokojona ciekawość to coś, co towarzyszy każdemu dobremu data scientist.

SCEPTYCYZM

 Kolejnym elementem, który powinien cechować specjalistę od danych to zdrowy sceptycyzm. Prowadzi on do rygorystycznego podejścia do wykonywanych analiz, ich weryfikacji, dokładnego sprawdzenia czy dokonane „odkrycie” nie wynika z błędu w danych, w zastosowanej metodyce, czy interpretacji wyników. W życiu niczego nie można być pewnym, dlatego data scientist powinien skrupulatnie podchodzić do tego, co robi, a na wszystkie wyniki patrzeć z dystansem. Sceptycyzm pozwala na krytyczne podejście nawet do własnych efektów pracy, co może wyeliminować możliwość wystąpienia błędu.

PODEJŚCIE BIZNESOWE

Aby zrozumieć problem, który data scientist musi rozwiązać, dobrze jest mieć pojęcie o biznesie, którego zapytanie dotyczy. Zrozumienie szerszego kontekstu oraz uwarunkowań, w jakich działa biznes jest często konieczne do uzyskania najlepszego efektu. Bez tego trudno o dobranie odpowiedniej metody do rozwiązania problemu.

Podsumowując, efektywny data scientist musi łączyć w sobie umiejętności analityczne, programistyczne, biznesowe,
a także kompetencje miękkie, takie jak łatwość komunikacji. Nie bez powodu, data scientist to najbardziej pożądani specjaliści na rynku pracy. Nie jest łatwo spełnić wszystkie wymagania, ale wielu z nich można nauczyć się w ciągłym doskonaleniu swojej pracy. Jeżeli jednak masz wszelkie predyspozycje do bycia data scientist, możesz przyczynić się do innowacyjnego rozwiązywania problemów w wielu branżach, a znalezienie ciekawej i rozwojowej pracy nie będzie stanowiło żadnego problemu.