Wyzwania branży data science - Porozmawiajmy o IT

05 paź 2022 POIT #170: Wyzwania branży Data Science

Posted at 05:30h in podcast by Krzysztof Kempiński 0 Comments

Witam w sto siedemdziesiątym odcinku podcastu „Porozmawiajmy o IT”. Tematem dzisiejszej rozmowy są wyzwania branży data science.

Dziś moim gościem jest Marcin Kosiński – w emagine wdraża zastosowania sztucznej inteligencji w projektach wewnętrznych organizacji. Magister Statystyki Matematycznej i Analizy Danych na Politechnice Warszawskiej. W branży Data Science od prawie 10 lat. Znany na polskiej scenie Data Science z organizacji licznych konferencji oraz wielu prezentacji wygłaszanych w Polsce i w Europie.

W tym odcinku o wyzwaniach branży data science rozmawiamy w następujących kontekstach:

czym jest Data Science?
czym zajmuje się Data Scientist?
jak wygląda rynek data science w Polsce i w Europie?
czy komunikacja z biznesem stanowi wyzwanie dla branży?
jak data science wspiera analizę badań marketingowych?
jak data science wspiera inteligentne systemy rekomendacyjne?
czy rynek pracy stanowi wyzwanie?
jakich narzędzi czy systemów opartych o dane brakuje na rynku?
czy chmura stanowi rozwiązanie na duże zużycie zasobów w analizie danych?
jakie wyzwania w data science dopiero pojawiają się na horyzoncie?
jak w emagine podchodzicie do Data Science?

Subskrypcja podcastu:

zasubskrybuj w Apple Podcasts, Google Podcasts, Spreaker, Sticher, Spotify, przez RSS, lub Twoją ulubioną aplikację do podcastów na smartphonie (wyszukaj frazę „Porozmawiajmy o IT”)
ściągnij odcinek w mp3
poproszę Cię też o polubienie fanpage na Facebooku

Linki:

emagine – https://www.emagine.pl/
Marcin – https://www.linkedin.com/in/mkosinski/

Wsparcie na Patronite:

Wierzę, że dobro wraca i że zawsze znajdą się osoby w bliższym lub dalszym gronie, którym przydaje się to co robię i które zechcą mnie wesprzeć w misji poszerzania horyzontów ludzi z branży IT.

Patronite to tak platforma, na której możesz wspierać twórców internetowych w ich działalności. Mnie możesz wesprzeć kwotą już od 5 zł miesięcznie. Chciałbym oddelegować kilka rzeczy, które wykonuję przy każdym podcaście a zaoszczędzony czas wykorzystać na przygotowanie jeszcze lepszych treści dla Ciebie. Sam jestem patronem kilku twórców internetowych i widzę, że taka pomoc daje dużą satysfakcję obu stronom.

👉Mój profil znajdziesz pod adresem: patronite.pl/porozmawiajmyoit

Pozostańmy w kontakcie:

📧 Jeśli masz jakieś pytania lub komentarze, pisz do mnie śmiało na krzysztof@porozmawiajmyoit.pl
📩 Zapisz się na newsletter, aby nie przegapić kolejnych ciekawych odcinków
🎙 Subskrybuj podcast w lub

Muzyka użyta w podcaście: „Endless Inspiration” Alex Stoner (posłuchaj)

Transkrypcja podcastu

To jest 170. odcinek podcastu Porozmawiajmy o IT, w którym z moim gościem rozmawiam o wyzwaniach branży Data Science. Przypominam, że w poprzednim odcinku rozmawiałem o Spring i Spring Boot. Wszystkie linki oraz transkrypcję dzisiejszej rozmowy znajdziesz pod adresem porozmawiajmyoit.pl/170.

Ocena lub recenzja podcastu w Twojej aplikacji jest bardzo cenna, więc nie zapomnij poświęcić na to kilku minut. Od niedawna można wystawiać oceny podcastom w Spotify. Będzie mi bardzo miło, jeśli w ten sposób odwdzięczysz się za treści, które dla Ciebie tworzę. Dziękuję.

Ja się nazywam Krzysztof Kempiński, a moją misją jest poszerzanie horyzontów ludzi z branży IT. Środkiem do tego jest między innymi ten podcast. Wspierając mnie przez Patronite, pomagasz w realizacji tej misji. Dlatego już dziś wejdź na porozmawiajmyoit.pl/wspieram i sprawdź szczegóły. Ja natomiast bardzo dziękuję obecnym patronom. A teraz życzę Ci już miłego słuchania!

Odpalamy!

Cześć! Mój gość w Emagine wdraża zastosowania sztucznej inteligencji w projektach wewnętrznych organizacji, magister statystyki matematycznej i analizy danych na Politechnice Warszawskiej. W branży Data Science od prawie 10 lat. Znany na polskiej scenie Data Science z organizacji licznych konferencji oraz wielu prezentacji wygłaszanych w Polsce i w Europie. Moim i Waszym gościem jest Marcin Kosiński.

Cześć, Marcin, bardzo mi miło gościć Cię w podcaście.

Cześć, dzięki za zaproszenie.

A dzisiaj z Marcinem jako ekspertem od Data Science będziemy rozmawiać o wyzwaniach, z jakimi się mierzy ta branża. Dla mnie to też będzie ciekawa okazja do tego, żeby nauczyć się czegoś nowego. Bardzo się cieszę na tę rozmowę, ale zanim do tego przejdziemy, to chciałbym Cię, Marcin, standardowo, jak każdego mojego gościa zapytać, czy słuchasz podcastów. Jeżeli tak, to może masz jakieś, o których chciałbyś tutaj powiedzieć?

Tak, miałem okazję słuchać kilku. Z tego miejsca chciałbym bardzo polecić podcast Biznes myśli, prowadzi go Vladimir Alekseichenko. I jeszcze podcast Data Science po polsku autorstwa Szymona Drejewicza. Więc myślę, że na polskiej scenie Data Science warto śledzić obecnie te dwa podcasty.

Super! Dzięki za te rekomendacje. Nie da się ukryć, że o Data Science mówi się ostatnio coraz więcej w mediach, na branżowych wydarzeniach. Często podkreśla się wartość danych, mówi się, że to jest takie nowe złoto, nowe paliwo, które napędza biznesy. Nie da się ukryć, że większość firm przynajmniej gromadzi te dane, przetwarza, niektóre nawet wyciągają z nich jakieś wnioski.

Zanim przejdziemy do rozmowy o wyzwaniach branży Data Science, to chciałbym Cię poprosić o wyjaśnienie kilku podstawowych pojęć. Czyli powiedz, proszę, czym w ogóle jest Data Science, jak Ty to definiujesz, i czym zajmują się osoby, które mają przed nazwiskiem Data Scientist.

Data Scienist to taki nowy twór na naszym rynku, wcześniej to miało wiele różnych nazw. Myślę, że w przyszłości też wyewoluuje. Wcześniej można było spotkać się z takimi terminami, jak Data Mining. Obecnie często też słyszy się uczenie maszynowe, Artificial Intelligence. Te nazwy będą się wymieniać, ale głównie chodzi o to mniej więcej, że jest to nauka oparta na danych, na rozwiązaniach, które są stworzone po to, żeby wykorzystywać dane, by przyspieszyć automatyzację, stworzyć inteligentne systemy. Jest to cały zakres szeroko pojętego biznesu, który stara się kolekcjonować dane w odpowiedniej formie, przetwarzać je, by były przystępne do wykorzystania, oraz stara się wycisnąć z tych danych jak najwięcej informacji po to, aby biznesy działały prężniej i skuteczniej. I w ostatnich latach również powstają z danych algorytmy uczenia maszynowego, które wspierają procesy decyzyjne.

Data Scienist to taki nowy twór na naszym rynku, wcześniej to miało wiele różnych nazw. Myślę, że w przyszłości też wyewoluuje. Wcześniej można było spotkać się z takimi terminami, jak Data Mining. Obecnie często też słyszy się uczenie maszynowe, Artificial Intelligence. Te nazwy będą się wymieniać, ale głównie chodzi o to mniej więcej, że jest to nauka oparta na danych, na rozwiązaniach, które są stworzone po to, żeby wykorzystywać dane, by przyspieszyć automatyzację, stworzyć inteligentne systemy.

Żeby jeszcze dopełnić ten obraz, to powiedz, czym zajmują się osoby z tytułem Data Scientist.

Data Scientist to jest taki statystyk pierwszego kontaktu – jak lekarz pierwszego kontaktu, gdyby to przyrównać do terminologii medycyny. Data Scientist dość często musi na pierwszej linii frontu sprawdzić, czy firma faktycznie ma dane, na których mogłaby oprzeć jakieś inteligentne systemy. Musi też sprawdzić, czy jest w stanie zbierać i kolekcjonować te dane, oraz czy ma do tego odpowiednie kompetencje. W momencie, gdy dane są odpowiednio zbierane i można z nich skorzystać, Data Scientist przechodzi do takiej innej formy, ma też inne odpowiedzialności, w tym momencie musi od biznesu dowiedzieć się, jakie są wyzwania w tej firmie, aby móc sprawdzić, czy jest w stanie zaproponować jakieś rozwiązania, które pomogą podejmować inteligentne decyzje.

Kiedy już wiadomo, jak zbierać dane, oraz że te dane istnieją i są kompletne, Data Scientist również zajmuje się tworzeniem modeli sztucznej inteligencji oraz modeli produkcyjnych, które na podstawie danych tworzą jakieś decyzje. I często te decyzje są szyte na miarę, różne biznesy mają różne potrzeby, więc ciężko jest generalizować.

Podsumowałbym to jednym zdaniem, że Data Scientist weryfikuje, czy faktycznie dane, na których można pracować, są kompletne i wystarczające oraz tworzy systemy, w których jesteśmy w stanie podejmować decyzje.

Chciałbym Cię jeszcze zapytać o taką jedną rzecz, która dopełni definicji, bo faktycznie, mówiłeś, że Data Science to jest nauka, że mamy tutaj Data Scientist, czyli z angielskiego pewnego rodzaju naukowiec. Jestem ciekawy, na ile faktycznie o Data Science mówi się jak o nauce, a na ile jak o jakiejś gałęzi inżynieryjnej. Bo bardzo często w ramach IT umieszcza się Data Science. Jestem ciekawy, jak Ty na to patrzysz, czy że jest to nauka, czy inżynieria.

Tutaj faktycznie jest to przycięcie wielu kompetencji. Osobiście rozróżniłbym dwa odłamy: inżynieryjny oraz, nazwijmy go chwilowo przez wzgląd na nasze potrzeby – naukowy.

Ten aspekt inżynieryjny faktycznie skupia się na dobrym tworzeniu systemów, które dobrze wydane gromadzą i agregują oraz umożliwiają przeczesywanie lasu danych. Jednak ten aspekt naukowy, z którym mam więcej doświadczenia, powiedziałbym, że jest bardziej statystycznym aspektem. Wymagana jest tutaj wiedza, używajmy tego słowa naukowa, ale taka wiedza dziedzinowa, zastosowań i niuansów modeli uczenia maszynowego. Więc tutaj faktycznie rozróżniłbym podział na dwa typy. Jest praca związana z gromadzeniem, przetrzymywaniem i wyszukiwaniem danych i jest ta część, gdzie faktycznie potrzebnej jest trochę więcej wiedzy, gdzie wykorzystujemy już dane w modelach uczenia maszynowego, gdzie ta wiedza statystyczna czy matematyczna jest wymagana.

Rozumiem. Myślę, że zanim przejdziemy do wyzwań tej branży, to dobrze byłoby też zrozumieć, jak wygląda rynek Data Science. Wiem, że to jest bardzo pojemne pytanie, bo zależy, jak się mierzy i co się mierzy, ale gdybyś może spróbował jakoś właśnie zwymiarować ten rynek Data Science w Polsce, w Europie, to by dało nam pewien obraz sytuacji.

Faktycznie, kiedy mówi się rynek, to jest to dość obszerne pojęcie. Ja, mówiąc rynek, myślę o społeczności oraz o wakatach, o zapotrzebowaniu na takie stanowiska. Mówiąc o społeczności, mogę z dużą dozą pewności stwierdzić, że na naszym rynku dość prężnie działa dużo organizacji, które tworzą wydarzenia, meet-upy, jest dużo konferencji na naszym polskim rynku. Z większych konferencji, które mogę sobie teraz przypomnieć, to Data Science Summiti na te konferencje przychodzi rokrocznie około tysiąc osób, więc są to dość duże wydarzenia.

Jeżeli chodzi o rynek europejski, to te konferencje są jednak większe. Tam skupienie specjalistów jest dużo większe. Może się to wiązać z tym, że rynki zachodnie wcześniej się rozwijały, wcześniej dostrzegły ważność danych oraz wcześniej zaczęły rozwijać takie kompetencje i miejsca pracy.

U nas w Polsce rynek ma się dobrze, wcale nie mamy daleko do Zachodu. Rzekłbym nawet, że nasi specjaliści są dość często lepiej wykwalifikowani, bo jednak renoma polskich specjalistów IT na świecie jest ogromna i my faktycznie na naszych wydarzeniach w kraju oraz na tych za granicą, na których wygłaszamy przemówienia, dbamy o jakość i klasę, co widać.

Więc faktycznie rynek w Polsce jest spory, tych specjalistów nie jest tak dużo, jak za granicą, jednak nasi specjaliści są doceniani i często są wciągani w zagraniczne projekty, przez co widać, że tworzy się luka pracownicza na tym rynku. Zapotrzebowanie na specjalistów z tymi kompetencjami jest na tyle duże, że doszło już do tego, że ciężko jest zatrudnić specjalistę na odpowiednim poziomie i często takich specjalistów trzeba po prostu samoistnie wyszkolić. Firmy też idą trochę w tym kierunku, wiedzą, że osoby na seniorskich stanowiskach jest ciężko zatrudnić, stworzą własne akademie, gdzie osoby z tej firmy, będąc mentorami, szkolą nowe pokolenia pracowników, które potem będą rozwijały systemy danych firmy.

Zapotrzebowanie na specjalistów z tymi kompetencjami jest na tyle duże, że doszło już do tego, że ciężko jest zatrudnić specjalistę na odpowiednim poziomie i często takich specjalistów trzeba po prostu samoistnie wyszkolić. Firmy też idą trochę w tym kierunku, wiedzą, że osoby na seniorskich stanowiskach jest ciężko zatrudnić, stworzą własne akademie, gdzie osoby z tej firmy, będąc mentorami, szkolą nowe pokolenia pracowników, które potem będą rozwijały systemy danych firmy.

Bardzo miło słyszeć, że nie odstajemy mocno od Europy. Sam też jestem fanem tego typu rozwoju, czy też wchodzenia w ogóle do branży, żeby jak najszybciej dotykać realnych problemów.

Chciałbym teraz przejść do innego wątku. Wspomniałeś, że odpowiedzialnością osoby zajmującej się Data Science jest z jednej strony aspekt naukowy, z drugiej strony inżynieryjny, ale jest też, jak to określiłeś, komunikacja z biznesem, z produktem, z marketingiem, po to, żeby tę wiedzę wyciągnąć, żeby np. móc skonstruować modele danych. Data Science pewnie jak każda inna dziedzina działalności ma swój żargon, swój język, ma pewne nawyki. Czy ta komunikacja z biznesem jest jakimś problemem, jest swego rodzaju wyzwaniem dla branży?

To jest bardzo fajne pytanie. Mówiąc o Data Science, faktycznie warto zwrócić uwagę na biznes i na wiedzę dziedzinową. Kiedy się mówi o Data Scientist, człowiek ma obraz osoby, która ma kompetencje inżynieryjne, umie posługiwać się różnymi językami programowania, a dodatkowo ma jakąś wiedzę z zakresu uczenia maszynowego, jeżeli chodzi o tę wiedzę książkową.

Trzecim elementem, który jest niezbędny w pracy Data Scientist, jest wiedza dziedzinowa, czyli wiedza na temat pewnych obszarów biznesu, w których się pracuje, na tematy danych, z którymi się pracuje na co dzień, więc komunikacja z biznesem jest niezbędna, ponieważ analityk, który współpracuje z biznesem, wchodząc w nowy obszar, nie ma jeszcze takiej wiedzy, nie wie, jakie są zachowania na rynku, nie wie, jak zachowują się klienci, nie wie, jakie są wymagania biznesu, dlatego często musi komunikować się z biznesem, żeby zrozumieć dane, zrozumieć strukturę zachowania. Komunikacja z biznesem jest nieoceniona.

Biznes jest także potrzebny w tych zastosowaniach Data Science, ponieważ wyznacza cele, dalekosiężne plany na rozwiązania, więc analityk czy Data Scientist jest w stanie zrobić dużo, ale to mędrcy z biznesu wyznaczają kierunki, w których firma powinna się rozwijać, i wtedy Data Scientist musi odpowiadać na te potrzeby i dostosowywać do nich rozwiązania.

Jeżeli chodzi o żargon, to oczywiście jest mniej lub bardziej zrozumiały, ale po pewnym czasie ta komunikacja z biznesem staje się bardzo płynna. Biznes uczy się trochę od Data Scientists, ci drudzy też często muszą stopować zapędy na wykorzystywanie sztucznej inteligencji, ponieważ często wyobrażenia o tym, co Data Scientist mógłby zrobić, są mocno przesadzone. Więc ten biznes trzeba stopować. Niemniej jednak biznes pokazuje obszary, w których chciałby się rozwijać, pokazuje, gdzie można zdobyć nowych klientów, ew. zwiększyć przychody czy zmaksymalizować popyt na produkt. Więc ta współpraca będzie trwała. Data Scientist będzie uczył się od biznesu, co jest w tym obszarze niezbędne, biznes będzie starał się, mam nadzieję, zrozumieć, co jest wykonalne.

To może zerknijmy na konkretne zastosowania Data Science i zobaczmy, z jakimi wyzwaniami tamta branża musi się mierzyć. A ja przypominam, że moim gościem jest Marcin Kosiński z firmy Emagine. Rozmawiamy właśnie o wyzwaniach branży Data Science.

Marcin, kiedy się czyta Twój profil zawodowy, to widać, że masz duże doświadczenie w analizie badań marketingowych. I zewsząd dociera do nas informacja, że faktycznie nowoczesny marketing z tych danych korzysta, co można powiedzieć, że stanowi o sukcesie tej branży. Jak Data Science wspiera nowoczesny marketing, jakie wyzwania tam spotyka, jak sobie z nimi radzi?

Badania marketingowe są tutaj bardzo obszernym tematem. Istnieje tu bardzo wiele wyzwań i mając już kilkuletnie doświadczenie, bardzo chętnie o tym opowiem. W tej branży badań marketingowych praca Data Scientist wygląda troszeczkę inaczej, ponieważ w niektórych przypadkach nie ma danych do rozwiązania problemu. Wychodzi na rynek nowy produkt, nie jest jeszcze sprzedawany, nie wiadomo, jak klienci na niego zareagują, a wypadałoby stworzyć jakąś analizę, żeby zobaczyć, które cechy produktu są najbardziej pożądane przez klientów, ew. jak ten nowy produkt wycenić.

Są też takie sytuacje, w których polityk rozpoczyna swoją kampanię, załóżmy na jakieś stanowisko prezydenta czy radnego, i też nie wiadomo, jakie są opinie czy poglądy społeczne na temat jego sylwetki, jego poglądów. Więc jeżeli chodzi o obszary analiz badań marketingowych, można wyróżnić takie dwa. Badania opinii, odbioru nowych rzeczy czy produktów. Lub istnieją już produkty, osoby, one są już ugruntowane w rynku i pewne dane na ich temat istnieją. Więc ja mam duże doświadczenie, jeżeli chodzi o zbieranie nowych danych, pracowałem też przy takich systemach, które analizowały zachowania zakupowe, więc jeśli chodzi o e-commerce, też mógłbym dużo opowiedzieć. Ale w tym pytaniu chciałbym się skupić na tej części, w której dane nie istnieją.

Więc jeżeli dane nie istnieją i chcielibyśmy sprawdzić jakiś nowy produkt, jakieś nowe zachowania czy nową narrację polityków, jeżeli chodzi o ich kampanie prezydenckie czy inne, to tutaj bardzo fajnie można mieć wpływ na tworzenie danych. I to jest niecodzienne w pracy Data Scientist, że może mieć wpływ na tworzenie danych, z którymi będzie pracował i to jest bardzo przyjemne. Można się zastanowić, jakie dane będą potrzebne, albo odpowiedzieć na kilka pytań, a następnie można ten model danych stworzyć, przygotować ankietę, a potem do zainteresowanych osób ją rozesłać. W wielu zastosowaniach często jest na odwrót: Data Scientist przychodzi, kiedy dane są gotowe. I tutaj często dochodzi do sytuacji, w których wynika, że pewnych danych nie ma, ew. pewne dane są zbierane źle. I cały proces trzeba powtórzyć. W tych badaniach marketingowych, które sprawdzają nowe trendy czy produkty, Data Scientist często ma wpływ na zbieranie tych danych.

Zastanawiam się, czy tutaj problemem nie jest czas. Bo kiedy danych nie ma, to tak jak powiedziałeś, z jednej strony jesteśmy w stanie wykreować przynajmniej jakiś wzór tych danych, które będą potrzebne, a z drugiej strony zazwyczaj potrzeba czasu i zaangażowania innych osób, żeby te dane zebrać. Cały proces trochę się rozciąga. Czy tutaj można mówić o czasie jako o czynniku stanowiącym wyzwanie?

Jeżeli chodzi o badania marketingowe, to istnieją panele ankieterów, gdzie osoby zgłaszają się same do wypełnienia ankiet oraz przedstawiają swoje obszary zainteresowań, w których się specjalizują i ew. mogłyby wyrazić swoją opinię. I mając takie panele pod ręką, jesteśmy w stanie kilka tysięcy respondentów zaliczyć w przeciągu kilku dni, maksymalnie tygodnia, dwóch.

Widziałem też takie badania, które były przeprowadzane w kilku różnych krajach, w kilku językach, i to zbieranie danych też wcale nie zajmowało dużo czasu. Tydzień, dwa to maksimum, żeby zebrać odpowiednią próbkę danych. Te badania marketingowe też nie potrzebują być oparte o ogromne zbiory danych. To są dość ukierunkowane pytania z kilkoma odpowiedziami, więc oszacowania błędów są dość niskie i ja z własnego doświadczenia mógłbym powiedzieć, że zajmuje to od tygodnia do dwóch, a są nawet metody szybsze niż badania panelowe.

Teraz na portalach społecznościowych można wykorzystać narzędzia do tworzenia reklam po to, żeby targetować ankiety do osób spełniających pewne założenia. I tutaj zasięg jest znacznie większy niż przy normalnych badaniach marketingowych. Docieramy tu do całych populacji, do całych krajów, kontynentów osób zainteresowanych i stargetowanych pod konkretny problem. I ten response, czyli odpowiedź na wezwanie do ankiety też jest większy. Często oferuje się jakieś kupony zniżkowe, ew. karty podarunkowe, więc tutaj jesteśmy w stanie nawet zapłacić tym osobom za poświęcony czas.

Powiedziałbym więc, że czas nie jest dużym problemem, tutaj branża już odpowiedziała na te potrzeby i jeżeli chodzi o zebranie nowych danych, jeżeli chodzi o zweryfikowanie jakiegoś nowego problemu, maksymalnie tydzień, dwa. Jeśli chodzi o jakieś grupy, które są ciężkie do dotarcia, bo jest to dość duże przecięcie ciężkich cech demograficznych bądź jakichś charakterystyk profilu biznesowego, to maksymalnie do trzech tygodni. Nie słyszałem, żeby jakieś badania trwały dłużej. Chyba że są to takie badania, które starają się faktycznie na bieżąco, co jakiś okres monitorować, czy pewne zachowania dalej istnieją na rynku, więc są takie specjalne panele, trackery, gdzie się co miesiąc powtarza dane badanie.

Teraz na portalach społecznościowych można wykorzystać narzędzia do tworzenia reklam po to, żeby targetować ankiety do osób spełniających pewne założenia. I tutaj zasięg jest znacznie większy niż przy normalnych badaniach marketingowych. Docieramy tu do całych populacji, do całych krajów, kontynentów osób zainteresowanych i stargetowanych pod konkretny problem. I ten response, czyli odpowiedź na wezwanie do ankiety też jest większy. Często oferuje się jakieś kupony zniżkowe, ew. karty podarunkowe, więc tutaj jesteśmy w stanie nawet zapłacić tym osobom za poświęcony czas.

To spójrzmy może teraz na inną sytuację: kiedy dane już są dostępne. Mowa tutaj o analizie danych przykładowo z platform e-commerce, które obecnie sporo tych danych generują. To są bardzo przydatne dane dla tych platform, bo na ich podstawie powstają chociażby systemy rekomendacyjne, które nierzadko wpływają na to, jaki jest przychód całego biznesu. I można powiedzieć, że kilka platform, bez podawania szczegółów, znacząco na takich systemach się wybiło.

Powiedziałeś, że to jest trochę inna sytuacja, z racji tego, że te dane są, co prawda nie zawsze w takiej jakości, w jakiej byśmy chcieli, jakie tutaj wobec tego Data Science ma przed sobą?

E-commerce to również bardzo przyjemne miejsce pracy, jeżeli chodzi o Data Scientist. Za każdym razem, kiedy wchodzę na platformę i widzę produkty, zastanawiam się, jakie dane siedzą pod spodem, co jest zbierane, czy faktycznie te dane są w dobrej jakości. Bo jednak jeśli jest duża liczba produktów, to czasami jakość tych zbieranych danych nie jest na najwyższym poziomie ze względu na tempo pracy. Czasami są takie trade offy, że jednak rozszerzając sklep, skupiamy się na dostarczeniu jak największej liczby produktów. Często to zbieranie danych nie jest na takim poziomie, na jakim byśmy chcieli. Jednak firmy, które zauważyły, że dzięki zbieraniu poprawnych danych i dzięki odpowiednim systemom, które są oparte na danych, można wycisnąć więcej, jeżeli chodzi o sprzedaż, i jest tam większa inwestycja w jakość danych.

Złotym Graalem w e-commerce są systemy rekomendacyjne. Duża rzesza sklepów, która oferuje produkty, chciałaby trafić do klienta z odpowiednimi produktami. Nikt nie chce wychodzić z produktami, którymi klient nie jest zainteresowany. Więc gdyby udało się stworzyć taki system, który wie, jakie są potrzeby klienta, oraz jest w stanie dopasować odpowiednie produkty, aby zmaksymalizować zysk, to taka osoba na pewno byłaby obsypana złotem w tej branży.

Tutaj jest dużo wyzwań związanych z tym, że jednak co kraj, to obyczaj, a co człowiek, to inna definicja inteligencji. Każdy ma inne wyobrażenia, jak taki system mógłby działać, oraz jest też dużo problemów z takimi systemami, jeżeli chodzi o sprzężenie zwrotne. Tutaj feedback, który ten system otrzymuje, jest często albo niski, albo zerowy. System często nie wie, czy dana rekomendacja była dobra, ew. czy taka rekomendacja jest w sferze możliwych rekomendacji, bo niektóre produkty już przez tę osobę zostały zakupione, ew. były widziane lub nie będą nigdy zakupione, pomimo że już zostały zakupione.

Więc ten system rekomendacji największe wąskie gardło ma w tym momencie, że nie ma tego sprzężenia zwrotnego związanego z odbieraniem feedbacku od klientów. Więc jeżeli chodzi o systemy rekomendacyjne, to faktycznie jest jeszcze dużo do zrobienia. Jest też multum różnych systemów, które można zaaplikować do danych problemów i w zależności od tego, jak chcielibyśmy, żeby te rekomendacje wyglądały, tak się te różne systemy projektuje.

Chciałbym przejść teraz do ludzi, bo o ile Data Science jako branża mocno opiera się na algorytmach, ale to, powiedziałbym, że o ile dzięki konkretnym rozwiązaniom informatycznym ten sukces (połączenie nauki i inżynierii) mógł zajść, o tyle za tym wszystkim zawsze stoją ludzie. Inżynierowie, którzy rozwijają, naukowcy, którzy pracują nad algorytmami, informatycy, którzy to wszystko utrzymują. To jest szereg powiązanych ze sobą rzeczy.

I teraz mamy taki, a nie inny rynek pracy, zwłaszcza mocno wykwalifikowane specjalizacje cierpią na duży deficyt kadry pracowniczej. Jak to wygląda w Data Science? Czy to jest na ten moment wyzwanie?

Tak, powiedziałbym, że to jest duże wyzwanie. To jest jednak odłam IT, gdzie ten problem tylko się nawarstwia, jest coraz więcej zastosowań tych systemów, są one coraz bardziej dostępne i dzięki temu jest też większe zapotrzebowanie na osoby, które mają kwalifikacje, żeby pracować w branży IT. Data Science jest tą branżą, gdzie poza umiejętnościami wymaganymi typowo od software engineera, wymagana jest jeszcze wiedza książkowa, dotycząca właśnie tych algorytmów, które są tutaj potrzebne.

Jeżeli chodzi o samą kadrę pracowniczą i zarządczą, to jeżeli to nie są osoby, które pracują na co dzień z danymi, to jeżeli chodzi o kadrę zarządczą, to muszą to być osoby, które faktycznie rozumieją potrzebę budowania baz danych oraz rozumieją potrzebę wykorzystywania. Wiedzą, że skuteczne wykorzystanie danych zautomatyzuje procesy oraz usprawni to całość systemu.

Powiedziałbym, że te firmy, które widzą istotę danych (tak jak kiedyś mówiło się, że wiedza to potęga, obecnie według mnie dane to potęga), stawiają duży nacisk na to, żeby osoby rozumiały koncept budowania baz danych, rozumiały zastosowania, wiedziały, co jest ewentualnie możliwe. Bo jeżeli wiemy, co jest możliwe, i widzimy, że tego brakuje w naszej organizacji, to jesteśmy w stanie w dłuższej perspektywie na pewno zatrudnić osobę na danych stanowiskach bądź dać im się wyszkolić, żeby w przyszłości rozwijały te systemy oparte na danych.

Sądzę, że obecnie jest duży deficyt pracowników i że ci pracownicy, którzy mają dość duże doświadczenie, powinni być zaangażowani przez firmę do szkolenia nowych pokoleń pracowników. Bo jednak te miejsca, które kształcą, uczelnie czy jakieś kursy, nie mają aż takiej mocy przerobowej, jeżeli chodzi o to zapotrzebowanie na rynku. Więc widzi się też te akademie, które tworzą niektóre firmy, na których szkoli się pracowników na różnych stopniach. Często szkoli się juniorów zaraz po studiach, ale też często doszkala się osoby na dość wysokich kwalifikacjach, którym po prostu brakuje tych odpowiednich kompetencji w branży Data Science.

Tak, myślę, że rynek powoli dojrzewa w tym kierunku. Ale myślę, że też rola chociażby takich konferencji, które Ty współorganizujesz albo w których uczestniczysz jako prelegent, jest też znacząca, żeby pokazywać się innym zainteresowanym, że taka branża istnieje, że ma takie, a nie inne nie wyzwania. Być może tylko dość po prostu zainteresuje.

Chciałbym teraz przejść na chwilę do narzędzi. Czy według Ciebie te rozwiązania, które obecnie są teraz dostępne dla branży Data Science, spełniają zapotrzebowanie, czy może brakuje nam czegoś, co mogłoby rozwiązać większość problemów? Pytam, bo jestem ciekaw, czy w większości firmy mogłaby opierać na przykład pewne swoje potrzeby, czy też zapełniać swoje potrzeby ogólnymi, generalnymi rozwiązaniami, czy też może każda firma, każde zastosowanie to jest model szyty na miarę.

Na pewno na rynku jesteśmy w stanie znaleźć wiele generalnych rozwiązań. Wiele rozwiązań już przygotowanych, niektóre problemy są dość znane od dłuższego czasu, zostało zaproponowanych wiele rozwiązań, jeżeli chodzi o te problemy. Za każdym razem, kiedy w firmie trafiam na nowych problem, zastanawiam się, czy powinienem poświęcić chwilę, żeby wymyślić coś własnego, czy może lepiej zainwestować czas, żeby zobaczyć, co obecnie jest dostępne na rynku.

Z doświadczenia mogę z czystym sumieniem powiedzieć, że jednak lepiej jest zainwestować czas w research tego, co jest dostępne na rynku. Jest dużo zespołów, które mają wieloletnie doświadczenie, które udostępniają swoje narzędzia, często za darmo lub za jakąś opłatą. Tak też np. działa chmura, gdzie jest dużo tych dostępnych rozwiązań już gotowych. I jeżeli chodzi o to, czy istnieją już wszystkie systemy, które by rozwiązały problemy dostępne na rynku Data Science, to osobiście myślę, że nie, ponieważ powstają nowe biznesy, odpowiadają na potrzeby, które dopiero się kreują, więc rozwiązań dla tych konkretnych potrzeb jeszcze nie ma.

Jeżeli jednak chodzi o potrzeby, z którymi ludzkość boryka się od 5 czy 10 lat, wg mnie powinna być już na rynku dostateczna liczba rozwiązań, z których jesteśmy w stanie skorzystać. Teraz tylko kwestia, czy dostępna jest faktycznie w naszym frameworku, czy jest na naszej chmurze, z której korzystamy, ew. czy jest w stanie zsynchronizować się z naszymi systemami.

Więc osobiście myślę, że jest coraz więcej narzędzi, które automatyczną tę pracę i są dostępne na rynku, i wyzwania będą pojawiały się w tych obszarach, które są nowe w biznesie. Powstają nowe produkty i usługi i tam będą na pewno nowe problemy, z tym jeszcze nie mieliśmy do czynienia. I tam przydadzą się faktycznie kompetencje osób, które kreatywnie chciałyby tworzyć nowe rozwiązania. Ale to jest kwestia tego, czy Data Scientist chciałby faktycznie wymyślać nowe narzędzia, czy jednak lepiej czuje się w tym, że może korzystać z gotowych i dzięki temu ma więcej czasu, żeby poświęcić na dopracowanie rozwiązania szytego na miarę dla konkretnej firmy, w której pracuje.

Za każdym razem, kiedy w firmie trafiam na nowych problem, zastanawiam się, czy powinienem poświęcić chwilę, żeby wymyślić coś własnego, czy może lepiej zainwestować czas, żeby zobaczyć, co obecnie jest dostępne na rynku.

Wspomniałeś, że coraz więcej firm zauważa potencjał danych, coraz więcej firm je gromadzi, coraz więcej firm je w jakiś sposób przetwarza, wyciąga z nich wnioski. Bardzo często są to bardzo obszerne zbiory danych i ich przetwarzanie wiąże się z pewnymi kosztami, także potrzebnego czasu wytworzenia rozwiązań, zużycia energii – to wszystko trzeba by pewnie do tego rachunku doliczyć.

Czy wg Ciebie rozwój chmury obliczeniowej, o którym przed chwilą powiedziałeś, w jakiś sposób niweluje te problemy związane z zasobami, czy ta teoretycznie nieskończona moc obliczeniowa, która jest dostępna w kilku klikach, niweluje przeszkody, czy to może jeszcze nie rozwiązuje tych wszystkich problemów po to, żebyśmy mogli w pełni rozwinąć analizę danych?

Obszar jest duży. Pewne problemy na pewno są rozwiązane, inne jeszcze nie. Faktycznie tych danych robi się już dość pokaźna ilość. Mówiąc o danych, kiedy ktoś mówi, że jest ich dużo, musi też być punkt odniesienia dla kogoś, np. jak w naszej firmie, w Emagine, jeżeli mamy 100 tys. sylwetek konsultantów i mamy na temat ich sylwetek dane oraz charakterystyki, to teraz jest takie pytanie, czy to jest dużo, czy to jest mało. Dla nas to jest dużo danych. Ale z drugiej strony, jeżeli ktoś myśli o portalu z informacjami, na który wchodzi kilka milionów ludzi dziennie, który generuje kilkaset giga danych dziennie, czy to jest dużo, czy to jest mało – dla nich pewnie też to jest dużo. Ale możemy pójść krok dalej, np. NASA robiąca zdjęcia kosmosu, generujących kilka peta danych na sekundę. Czy to jest dużo danych, czy nie?

No więc faktycznie tutaj jest ten poziom odniesienia, którym musimy się posłużyć, jeżeli chodzi o rozmiar danych. Chmura na pewno rozwiązuje dużo problemów, jeżeli chodzi o czas i zasoby. Małe firmy, które nie mają dużo środków na zakup sprzętu, są na pewno w lepszej pozycji teraz niż kilka lat temu, ponieważ dzięki zwiększonej dostępności chmury są w stanie uruchomić systemy oraz maszyny w chmurze wg ich zapotrzebowania czasowego, oraz zasobowego. Ewentualnie potem, jeżeli zapotrzebowanie jest mniejsze, wyłączyć to. Wtedy ten rachunek za prąd jest mniejszy.

Kiedy pracowałem w dużym portalu informacyjnym parę lat temu, były tam tak ogromne dane, że nie przenosiliśmy tego do chmury, wszystko stało lokalnie u nas na systemach. One były zreplikowane na wiele serwerów, tak, żeby każdy analityk w swoim mieście, w którym analizuje dane, miał szybszy dostęp do danych.

Chmura obliczeniowa pozwala nam też na zwiększone obliczenia. To nie jest tak, że każde zastosowanie Data Science ma równomierne zapotrzebowanie na moc obliczeniową czy na miejsce przetrzymywania danych. Część sprowadza się do tego, że zapotrzebowanie na obliczenia jest zwiększone w danej chwili, następuje duże przeliczenie danych, stworzenie modelu, a potem ta moc obliczeniowa nie jest aż tak wymagana. Więc te firmy, które wiedzą, że ich zapotrzebowanie nie jest równomierne, oraz że ono jest zwiększone tylko chwilami, myślę, że mogą dużo wyciągnąć z chmur obliczeniowych. Jednak te firmy, które wiedzą, że zapotrzebowanie na przetrzymywanie czy na obliczenia jest równomierne i dość duże, mogą dużo zaoszczędzić na tym, że kupują własny sprzęt.

Czyli takie klasyczne to zależy. Ale to, czego możemy być pewni, to to, że tych danych będzie przybywało. W związku z tym pojawia się takie pytanie o przyszłość. Jakie tutaj wyzwania stojące przed branżą widzisz na horyzoncie? Czy są takie, które są szczególnie jaskrawe?

Zazwyczaj, kiedy jestem na spotkaniu, na jakimś meet upie czy na konferencji, lubię rozmawiać z ludźmi o tym, jakie obecnie mają problemy, żeby zorientować się, co dzieje się w innych obszarach biznesu. Lubię przyrównywać Data Science do medycyny: spotykają się lekarze, każdy ma innych pacjentów, każdy ma inną specjalizację. Oni też pracują z różnymi problemami i mają swoje rozwiązania. Dlatego zawsze lubię wiedzieć, co się dzieje w innych obszarach, żeby ew. w przyszłości móc mieć ugruntowaną wiedzę, jakie patenty się sprawdziły, jakie nie, i pomimo że pracujemy w wielu różnych obszarach, każdy leczy inne problemy biznesu, to jednak wszyscy mamy ten sam problem – że brakuje kadry. I każdy ma świadomość, że w pewnym momencie dojdzie do tego, że zespoły będą wyglądały tak, że na wieloosobowy zespół będzie tylko jeden specjalista z kompetencjami, a reszta osób, to ludzie zarządzani przez niego, których pracę trzeba weryfikować i które dopiero się uczą.

Więc jeżeli chodzi o wyzwania stojące przed całą branżą, to nie chciałbym się skupiać nad tym, czy chmura rozwiąże nasze bolączki, ew. czy powstanie algorytm sztucznej inteligencji, który rozwiąże nasze wszystkie problemy. Myślę, że jednak ejst to natłok zapotrzebowania na nasze umiejętności i niedostępność osób do pracy. Tutaj położyłbym duży nacisk na rozwijanie kompetencji komunikacji oraz organizacji pracy, a także na szkolenie nowych pracowników. To jest taka moja osobista wiadomość, która chciałbym, żeby pozostała we wszystkich po odsłuchaniu tego podcastu.

Zazwyczaj, kiedy jestem na spotkaniu, na jakimś meet upie czy na konferencji, lubię rozmawiać z ludźmi o tym, jakie obecnie mają problemy, żeby zorientować się, co dzieje się w innych obszarach biznesu. Lubię przyrównywać Data Science do medycyny: spotykają się lekarze, każdy ma innych pacjentów, każdy ma inną specjalizację. Oni też pracują z różnymi problemami i mają swoje rozwiązania. Dlatego zawsze lubię wiedzieć, co się dzieje w innych obszarach, żeby ew. w przyszłości móc mieć ugruntowaną wiedzę, jakie patenty się sprawdziły, jakie nie, i pomimo że pracujemy w wielu różnych obszarach, każdy leczy inne problemy biznesu, to jednak wszyscy mamy ten sam problem – że brakuje kadry.

Super, zatem podkreślamy. Na końcu chciałbym jeszcze Cię zapytać o to, jak podchodzicie w firmie, którą reprezentujesz, czyli w Emagine, do Data Science, bo jednak jest to firma będąca częścią międzynarodowej organizacji. Duże projekty dla rozpoznawalnych marek. Jak wygląda praca z danymi w tym obszarze w tego typu firmie?

Emagine to firma, która pracuje dla wielu krajów, dla wielu klientów. Staramy się połączyć zapotrzebowanie na pracownika z odpowiednimi kompetencjami, które ten pracownik mógłby sobą reprezentować. Więc mamy ogromne morze danych w naszej strukturze, codziennie kilkadziesiąt, miesięcznie kilkaset ofert pracy, kilkanaście tysięcy konsultantów na kraj, kilka krajów, albo nawet i kilkanaście po naszej ostatniej fuzji. Więc to już są dość duże rozmiary. Kilkadziesiąt tysięcy ofert pracy, ponad sto tysięcy profili naszych kandydatów, których moglibyśmy udostępnić na projekt, bądź takich, którzy już na tych projektach pracują.

Więc dla mnie osobiście są to dość przyjemne dane, które jeszcze jesteśmy w stanie analizować, powiedzmy, na jednym większym komputerze bądź na większej maszynie w chmurze. Są to jeszcze na tyle małe dane, że jestem w stanie je całe agregować i wykorzystywać ich cały potencjał, ale na tyle duże, żeby już móc stworzyć algorytm uczenia maszynowego.

Często problemy w naszej branży są takie, że jest za mało lub za dużo danych. Wtedy trzeba pracować na jakichś podpróbkach czy sample danych. U nas, jeżeli chodzi o Emagine, wykorzystujemy całe spektrum danych, których potrzebujemy, staramy się znaleźć najlepszych konsultantów, którzy mają odpowiednie kompetencje, i dzięki temu, że używamy automatyzacji, ten proces jest szybszy, jest dokładny, bo przegląda wszystkie sylwetki konsultantów naraz, i dzięki temu znajdujemy najlepszych konsultantów spełniających dane wymagania. Tak, aby klient otrzymał ten profil kandydata, który mógłby faktycznie najlepiej nadawać się do projektu.

W dzisiejszej rozmowie z Marcinem Kosińskim z Emagine przyglądaliśmy się wyzwaniom branży Data Science. Marcin, bardzo Ci dziękuję za poświęcony czas i za tę rozmowę.

Również dziękuję.

Powiedz, proszę, jeszcze na koniec, gdzie Cię można znaleźć w internecie i gdzie możemy odesłać słuchaczy.

Gdybyście chcieli się ze mną skontaktować, myślę, że najlepiej próbować na LinkedInie. Jeżeli wpiszecie Marcin Kosiński na LinkedInie, pojawi się mój profil Data Scientist i tam myślę, że najszybciej odpowiem na pytania.

Super! Oczywiście link będzie w notatce do odcinka. Marcin, jeszcze raz bardzo Ci dziękuję.

Do usłyszenia! Cześć!

Cześć!

I to na tyle z tego, co przygotowałem do Ciebie na dzisiaj.

Po więcej wartościowych treści zapraszam Cię do wcześniejszych odcinków. A już teraz, zgodnie z tym, co czujesz, wystaw ocenę, recenzję lub komentarz w aplikacji, której słuchasz lub w social mediach.

Zawsze możesz się ze mną skontaktować pod adresem krzysztof@porozmawiajmyoit.pl lub przez media społecznościowe.

Ja się nazywam Krzysztof Kempiński, a to był odcinek podcastu Porozmawiajmy o IT o wyzwaniach w branży Data Science. Zapraszam do kolejnego odcinka już wkrótce.

Cześć!

+ Pokaż całą transkrypcję

– Schowaj transkrypcję

To może Cię zainteresować:

POIT #002: Promocja marki osobistej w IT

POIT #122: Full Cycle Product Development

POIT #152: Pierwsza praca w IT

POIT #001: Przedstawiamy się

Tags:

big data, data science

Krzysztof Kempiński

krzysztof@porozmawiajmyoit.pl

Jestem ekspertem w branży IT, w której działam od 2005 roku. Zawodowo zajmuję się web-developmentem i zarządzaniem działami IT. Dodatkowo prowadzę podcast, kanał na YouTube i blog programistyczny. Moją misją jest inspirowanie ludzi do poszerzania swoich horyzontów poprzez publikowanie wywiadów o trendach, technologiach i zjawiskach występujących w IT.