Liczba danych w cyfrowym świecie przyrasta w bardzo szybkim tempie. IDC szacuje, że na koniec przyszłego roku będzie ich 45 zetabajtów. Ale to nie jedyny problem, któremu muszą stawić czoła przedsiębiorcy. Niepokojącym zjawiskiem jest tempo rozprzestrzeniania się software’u. Według IDC w latach 2018–2022 na rynku pojawi się 500 mln nowych aplikacji, czyli tyle samo, ile utworzono w ciągu ostatnich czterdziestu lat (1978–2018). Zbyt duża ilość narzędzi oraz danych, a także złożoność kodu sprawiają, że informacje są trudne do odnalezienia, niezrozumiałe i niezweryfikowane.

Jak się okazuje, problemy z opanowaniem cyfrowego chaosu mają nawet osoby na stanowisku data scientist, które ponad 80 proc. swojego czasu poświęcają na żmudne czynności związane z wynajdowaniem, zrozumieniem czy przygotowaniem danych. To ociera się o absurd, tym bardziej że płace we wspomnianej grupie zawodowej wzrosły w Stanach Zjednoczonych o 78 proc., a według serwisu rekrutacyjnego Indeed przeciętna roczna pensja wynosi ok. 131 tys. dol. Specjaliści uważają, że bez zastosowania odpowiednich narzędzi część wysiłków data scientist idzie na marne. Przykład z rynku amerykańskiego pokazuje, że firmy próbują czerpać profity z posiadanych danych, ale nie do końca wiedzą, jak do tego się zabrać. Zresztą potwierdzają to badania New Vantage Partners („2019 Big Data & AI Exec Survey”). Wynika z nich, że aż 72 proc. przedsiębiorstw nie ma kultury pracy z danymi.

Google Maps dobrym wzorem

A zatem żyjemy w erze, w której żądamy coraz szybszego dostępu do informacji, a jednocześnie zróżnicowanie i ilość danych sprawiają, że spełnienie tych oczekiwań graniczy z cudem. Kaycee Lai, CEO i założyciel Promethium, uważa, że w dużej mierze to wina żmudnych procesów ekstrakcji i analizy danych. Cały cykl zazwyczaj składa się z kilku etapów: ustalenia źródła występowania danych, przydzielenia dostępu, integracji, wydzielenia odpowiednich podzbiorów, a następnie zgromadzenia i udostępnienia zasobów.

– Cała operacja może trwać kilka miesięcy, przy czym niestety tak naprawdę nie wiemy, co się dzieje i czy postępujemy prawidłowo. Dopiero po uruchomieniu zapytań możemy zweryfikować wartość danych – mówi Kaycee Lai.

Promethium rozpoczął swoją działalność na początku ubiegłego roku. Jego założyciele mają bogate doświadczenie związane z zarządzaniem danymi, gdyż wcześniej pracowali dla EMC, VMware’a, Electronic Arts, Waterline Data, Huawei i Google’a. Notabene twórcy startupu wzorują swój produkt na jednym z najbardziej popularnych rozwiązań ostatniej z wymienionych firm.

Google Maps bardzo ułatwiło życie kierowcom. My chcemy uprościć pracę przedsiębiorcom w zakresie analityki, skracając proces do dwóch etapów. Pierwszy polega na kierowaniu zapytań do systemu, w drugim zaś Promethium wskazuje użytkownikowi drogę. Nie trzeba już szukać igły w stogu siana, a operacja trwa kilka minut – wyjaśnia Kaycee Lai.

 

Jak w praktyce działa system Promethium? Pierwszy krok to zadanie pytania, które może przybierać różne formy. Jaki produkt sprzedaje się najlepiej? Jakie przychody osiągnęliśmy w EMEA? Jakie rodzaje leków znajdują się w drugiej fazie testów? Następnie system, bazując na mechanizmach uczenia maszynowego, wybiera z dostępnych źródeł odpowiednie informacje. Promethium jest przystosowany do współpracy z bazami MySQL, Oracle, Terradata i systemem Aurora. Startup rekomenduje swoje oprogramowanie do analityki wstępnej oraz do zarządzania projektami. System może być instalowany w środowisku lokalnym lub w chmurze i jest oferowany w modelu subskrypcyjnym. Pomimo krótkiego stażu rynkowego Promethium otrzymało od funduszy venture capital zastrzyk finansowy w wysokości 2,5 mln dol.

Duże pieniądze z wielkich zbiorów danych

Usługami Google zafascynowani są również założyciele Alation. Startup opracował platformę do katalogowania danych umożliwiającą wyszukiwanie informacji pochodzących z wielu różnych źródeł.

Alation, podobnie jak Google, automatycznie indeksuje wszystkie dane należące do danej firmy, analizuje sposób ich wykorzystania, w tym postępowanie użytkowników. Wyróżnia nas to, że dokładnie przyglądamy się temu, w jaki sposób pracownicy korzystają z informacji. Wzorujemy się na algorytmie Page Rank Google, który mierzy popularność witryny na podstawie liczby prowadzących do niej odsyłaczy – wyjaśnia Satyen Sangani, założyciel i CEO Alation.

Pulpit nawigacyjny platformy umożliwia menedżerom śledzenie poziomu wykorzystania poszczególnych zasobów cyfrowych, rankingów popularności, adnotacji i komentarzy innych użytkowników. Samo rozwiązanie bazuje na trzech elementach: analizie behawioralnej, przetwarzaniu języka naturalnego (NLP) oraz uczeniu maszynowym. Platforma Alation jest przystosowana do współpracy z szeroką gamą produktów i usług: systemami Oracle i SAP, Hadoop, Microsoft Azure, AWS, oprogramowaniem BI (Cognos, Tableau), hurtownią danych Snowflake, bazami danych Terradata czy programami ETL (Trifacta, Informatica).

Alation działa na rynku od 2012 r., a na liście referencyjnej startupu znajdują się m.in. BMW, General Electric, GoDaddy, MunichRE, Pfizer, Tesco, Tesla, eBay i Allegro. Ostatni kwartał ubiegłego roku był szczególnie owocny dla startupu z Redwood City – pozyskał 20 nowych klientów, w tym Farm Credit Service of America, Finnair czy Liberty Mutual Insurance. Warto zaznaczyć, że jest to lukratywny biznes. Alation oferuje swój produkt w modelu subskrypcyjnym, a roczne opłaty w przypadku bardzo dużych przedsiębiorstw dochodzą nawet do miliona dolarów. Gartner szacuje wartość rynku zarządzania danymi na około 42 mln dol. To dopiero rodząca się branża, ale biorąc pod uwagę fakt, że przedsiębiorstwa przechowują coraz więcej danych w różnych systemach i środowiskach, należy sądzić, iż takie firmy jak Alation, Waterline Data, Datum czy Informatica, nie powinny narzekać w najbliższych latach na brak pracy. Znaczenie tego segmentu rynku doceniają inwestorzy – Alation otrzymał od nich już w sumie 82 mln dol.

Chaos w dziale marketingu

Marketingowcy są jedną z nielicznych grup zawodowych, która garściami czerpie z nowych technologii. Niestety, lwią część aplikacji działy marketingu kupują bez konsultacji z informatykami. W ten sposób rozkwita „shadow IT”. Nic nie wskazuje na to, że w najbliższych latach cokolwiek zatrzyma ten trend. Jak wynika z danych DataGrail, przeciętna firma z listy Fortune 500 używa średnio 100 systemów marketingowych. Co istotne, liczba aplikacji adresowanych do marketingowców rośnie w niesłychanym tempie – w 2011 było ich 150, a w ubiegłym roku aż 7 tysięcy. Sytuację komplikuje to, że firmy zbierają rozmaite dane o swoich klientach.

 

Niegdyś wystarczył e-mail oraz numer telefonu klienta. W cyfrowej erze marketingowcy gromadzą informacje o preferencjach, historii zakupów, zachowaniu na stronach internetowych oraz adresy IP. Taki stan rzeczy staje się kłopotliwy dla właścicieli firm oraz instytucji, zwłaszcza w kontekście RODO, a także różnych rozporządzeń w innych częściach globu (przykładowo władze Kalifornii pracują właśnie nad California Consumer Privacy Act).

Znamienny jest przykład Lufthansy. Niemieckie linie lotnicze korzystają z pięciu różnych aplikacji marketingowych do komunikacji e-mailowej z klientami. Jedna przeznaczona jest do rezerwacji, inne służą do wysyłania informacji o atrakcyjnych ofertach oraz badania satysfakcji klientów. Jeśli więc, dajmy na to, usunie się dane pasażera z tej ostatniej listy, to nie znikną z czterech pozostałych – tłumaczy Daniel Barber, CEO i założyciel DataGrail.

Działający od roku startup znalazł dla siebie ciekawą niszę – integrację aplikacji adresowanych do działów marketingu. DataGrail współpracuje z ponad setką systemów, w tym Salesforce, Zendesk i Marketo. Oprogramowanie gromadzi, przetwarza i spełnia żądania klientów dotyczące usuwania danych. Zgodnie z wytycznymi RODO wnioski muszą być rozpatrzone, a żądania spełnione w ciągu 30 dni od daty złożenia dokumentu. Dla dużych przedsiębiorstw jest to wyzwanie, zwłaszcza gdy dane klientów porozrzucane są po różnych systemach. DataGrail spodziewa się, że do końca bieżącego roku zdobędzie kilkudziesięciu klientów. Wysokość opłaty za usługę uzależniona jest od liczby zintegrowanych systemów.

 

Baza danych na dopalaczach

O ile Alation czy Promethium przywiązują ogromną wagę do wyszukiwania informacji, o tyle dla Hazelcast liczy się przede wszystkim szybkość operacji. W świecie baz danych jedną z najbardziej palących kwestii jest przyspieszenie czasu odpowiedzi na zapytania. Tylko w ten sposób można nadążyć za zmianami zachodzącymi w handlu online czy chociażby w branży mediów i rozrywki. Nie bez przyczyny firmy zaczynają rozglądać się za rozwiązaniami umożliwiającymi „podrasowanie baz danych”. Hazelcast stawia na technologię In Memory Data Grid, bazującą na połączonych magazynach. W tym modelu dane są przekształcane w obiekty i wrzucane do pamięci operacyjnej komputera, co znacznie skraca czas dostępu do informacji. Rozwiązanie zapewnia też dużą skalowalność, łatwe wykonywanie operacji oraz funkcje replikacji, a także współpracę z aplikacjami tworzonymi w różnych językach programowania.

Nie jesteśmy bazą danych, my ją przyspieszamy. Czas staje się kluczową wartością. Pojedyncze bicie serca trwa sekundę, mrugnięcie to tysiąc milisekund. Natomiast w przypadku naszego rozwiązania opóźnienie liczy się w mikrosekundach – tłumaczy Kelly Herrell, CEO Hazelcast.

Kierowana przez niego firma, dysponując produktem open source, od 13 lat zarabia na komercyjnych wdrożeniach, oferując specjalne wersje systemu. British Gas, Capital One, Chicago Board Options Exchange, Deutsche Bank, Ellie Mae czy Mizuho Securities USA – to tylko kilku przykładowych klientów Hazelcast, których jest już znacznie więcej. Co ciekawe, 40 proc. przychodów amerykańska firma generuje w Europie.

Jeśli masz dużo czasu, możesz skorzystać z tradycyjnej bazy danych, ale gdy szybkość staje się kluczowym elementem, np. podczas Black Friday, przyspieszenie wykonania operacji jest nieodzowne – podsumowuje Kelly Herrell.

 

Baza danych na przyszłość

W segmencie baz danych już od dłuższego czasu Oracle rywalizuje z grupą mniejszych firm. Gigant na razie dzielnie odpiera ofensywę młodych graczy. Z jednej strony migracja z Oracle’a do konkurencyjnych systemów wymaga sporego nakładu pracy, z drugiej zaś część klientów nie darzy zaufaniem nowicjuszy oferujących bazy NoSQL. IDC przewiduje, że w 2020 r. rynek relacyjnych baz danych osiągnie wartość ok. 60 mld dol., z kolei według 451 Research przychody ze sprzedaży systemów NoSQL w 2021 r. wyniosą 5,7 mld dol. Nierelacyjne bazy danych Redis, Cassandra czy Mongo DB mają niezaprzeczalne atuty, takie jak skalowalność horyzontalna i rozproszone przetwarzanie dużych zbiorów danych w klastrach.

Do nowej fali baz danych należy około 10 proc. rynku, aczkolwiek ten segment rozwija się zdecydowanie szybciej niż rozwiązania tradycyjne. Rośniemy w tempie 60 proc. rocznie i możemy utrzymać taki poziom przez następnych kilka lat – mówi Manish Gupta, CMO w Redis Labs.

Baza danych Redis cieszy się szczególnie dużą popularnością wśród programistów tworzących mikroserwisy. To dobrze wróży Redis Labs, które oferuje komercyjną wersję Redis Enterprise. IDC prognozuje, że w 2022 r. aż 90 proc. aplikacji będzie bazować na architekturze mikroserwisów. Szanse startupu, który powstał w 2011 r., wysoko oceniają też inwestorzy. Do tej pory wpompowali w Redis Labs 146,6 mln dol.

Wśród klientów firmy znajdują się trzej spośród czterech największych wydawców kart płatniczych. Z płatnej wersji bazy Redis korzystają poza tym takie tuzy, jak Walmart, Dreamworks i United Health.

Czasy odpowiedzi tradycyjnych baz danych nie zdołają sprostać najnowszym wyzwaniom. Nasz produkt zapewnia uzyskanie wyniku poniżej milisekundy przy dowolnym obciążeniu transakcjami – zapewnia Manish Gupta.

Kolejnym krokiem w rozwoju Redis Labs mają być wielomodelowe bazy, umożliwiające elastyczną obsługę różnych formatów danych i modeli. Niewykluczone, że tego typu systemy już wkrótce zawojują rynek.