Technologie głosowe - Porozmawiajmy o IT

20 lut 2019 POIT #029: Technologie głosowe

Posted at 07:30h in podcast by Krzysztof Kempiński 0 Comments

Witam w dwudziestym dziewiątym odcinku podcastu „Porozmawiajmy o IT”. Tematem dzisiejszej rozmowy są technologie głosowe.

Dziś moimi gośćmi są: Katarzyna Ryniak, co-founder firmy Upside z Krakowa, która specjalizuje się w technologiach głosowych. Wcześniej pracowała też jako HR manager i Scrum Master w firmie u2i oraz Rafał Cymerys, CTO firmy Upside. Wcześniej pracował jako tech lead i deweloper. Uwielbia używanie technologii do rozwiązywania realnych problemów.

W tym odcinku o technologiach głosowych opowiemy w następujących kontekstach:

czym są voice technologies?
w jakich branżach się je najczęściej wykorzystuje?
jakie firmy i marki są obecnie najpopularniejsze jeśli chodzi o sprzęt i technologie?
jaką rolę odgrywa Siri?
jakie jest powiązanie z uczeniem maszynowym?
jaką rolę odgrywają smartphone’y?
czym są smart speakers?
jak od strony programistycznej tworzy się aplikacje na platformy głosowe?
jakie języki programowania się w nich wykorzystuje?
jak wygląda proces dodawania takiej aplikacji do sklepu?
z czego składa się development kit Amazon Alexa i Google Assistant?
jak rynek i rozwój technologii głosowych wygląda w Polsce?
jakie są obecnie problemy, wyzwania i ograniczenia tych technologii?
w jakim kierunku zmierzają?

Subskrypcja podcastu:

zasubskrybuj w iTunes, Spreaker, Sticher, SoundCloud, Spotify, przez RSS, lub Twoją ulubioną aplikację do podcastów na smartphonie (wyszukaj frazę „Porozmawiajmy o IT”)
ściągnij odcinek w mp3
poproszę Cię też o polubienie fanpage na Facebooku

Linki:

Firma Upside – https://upsidelab.io
Profile na LinkedIn – https://www.linkedin.com/in/katiryniak/ i https://www.linkedin.com/in/rafalcymerys/
VoiceCommerce.js – https://github.com/upsidelab/voicecommerce

Pozostańmy w kontakcie:

📧 Jeśli masz jakieś pytania lub komentarze, pisz do mnie śmiało na krzysztof@porozmawiajmyoit.pl
📩 Zapisz się na newsletter aby nie przegapić kolejnych ciekawych odcinków.
🎙 Subskrybuj podcast w lub

Muzyka użyta w podcaście: „Endless Inspiration” Alex Stoner (posłuchaj)

Transkrypcja podcastu

To jest 29. odcinek podcastu Porozmawiajmy o IT, w którym z moim gościem rozmawiam o technologiach głosowych. Przypominam, że w poprzednim odcinku poruszyłem temat trendów IT na rok 2019.

Chcę poszerzać horyzonty ludzi z branży IT i wierzę, że poprzez wywiady takie jak ten publikowane jako podcasty, będę to robił z sukcesem.

Jeśli chcesz mnie wspomóc, to ocena podcastu lub maile z dobrym słowem są zawsze mile widziane.

Ja się nazywam Krzysztof Kempiński i życzę Ci miłego słuchania.

Odpalamy.

Krzysztof: Cześć! Dzisiaj mam dwóch gości. Jest to co-funder, a właściwie co-founderka firmy Upside z Krakowa, która specjalizuje się w technologiach głosowych. Wcześniej pracowała również jako HR Manager i Scrum Master w firmie You To Why. I mój drugi gość, to CTO tejże samej firmy, wcześniej pracował jako tech leader i developer, uwielbia używanie technologii do rozwiązywania realnych problemów. A ta firma, to Upside z Krakowa, która specjalizuje się, tak jak powiedziałem, w technologiach głosowych i właśnie o tym nowym trendzie technologicznym dzisiaj porozmawiamy. Moimi gośćmi są Kasia Ryniak i Rafał Cymerys. Witam was bardzo serdecznie. Cieszę się, że będę miał okazję z wami porozmawiać i fajnie, że zgodziliście się przyjąć zaproszenie do podcastu.

Kasia: Cześć.

Rafał: Cześć.

Kasia: Wielka przyjemność po naszej stronie.

Krzysztof: Bardzo się cieszę. Ja zawsze zaczynam od takiego wprowadzającego pytania na rozluźnienie, mianowicie: czy słuchacie podcastów, a jeśli tak, to jeśli moglibyście podzielić się takimi swoimi ulubionymi podcastami?

Kasia: To jest mój temat, więc ja zacznę. Ja jestem uzależniona od podcastów, słucham ich codziennie. Zaczynam dzień od podcastów tak na dobrą sprawę i jak sobie wracam do tych pierwszych podcastów, których słuchałam, to był Tim Ferriss Show jako jeden z takich najbardziej popularnych, jeszcze parę lat temu. To były podcasty, które opowiadały historię i często to były to kryminalne historie ze Stanów, czyli np. Alice, ale później gdzieś tam to moje zainteresowanie powędrowało, przeszło do bardziej biznesowych podcastów np. HBR ideacast. W tym momencie oczywiście twój podcast i bardzo też lubię Biznes w IT Piotrka Buckiego.

Rafał: Ja podcastów słucham trochę mniej, natomiast staram się wybierać te, które są naprawdę super i tak jeszcze do tego, co Kasia wymieniła dodałbym 99% invisible, który porusza tematy designu i biznesu, i odpowiada na wiele bardzo ciekawych pytań, np. skąd bierze się kształt pociągów w Japonii? Naprawdę ciekawa perspektywa na świat. Warto poszerzać horyzonty w tą stronę też.

Krzysztof: Bardzo ciekawe podcasty. Postaram się też podlinkować w opisie tego odcinka i cieszę się, że nie tylko ja jestem uzależniony od słuchania podcastów. Fajnie. Ok, to wobec tego rozpocznijmy od takiego dosyć ogólnego pytania, ponieważ nie wszyscy słuchacze mogą wiedzieć, czym są technologie głosowe? Bardzo bym was prosił o odpowiedź właśnie na to pytanie, czym są technologie głosowe?

Kasia: W ogóle spotykam się w bardzo ciekawym momencie, bo jesteśmy dosłownie parę dni po premierze Google Assistant w Polsce, po polsku, więc myślę, że tak powoli rośnie nam świadomość w narodzie, co to są technologie głosowe, ale jak mamy podsumować tak dosłownie, paroma zdaniami, to powiedziałabym, że technologie głosowe w tym momencie w takiej funkcji do nas jako do użytkowników, sprowadzają się do asystentów głosowych, do takich asystentów, które są zasilane sztuczną inteligencją i ci asystenci pomagają nam realizować takie proste rzeczy w naszym życiu i też umożliwiają nam skróty do wielu produktów, do wielu serwisów i to co jest w nich najwspanialsze, to jest to, że nie potrzebujemy ekranów, żeby się z nimi komunikować, nie potrzebujemy takich interfejsów graficznych, ale możemy używać tego, co jest dla nas jako dla ludzi najbardziej naturalne, czyli dla głosu i dla mowy.

Krzysztof: Jasne. Fajnie. Dzięki za tą odpowiedź. Ja też mam takie wrażenie, że to jest dopiero początek tych technologii, które kreują de facto inny interfejs albo interfejs, który przez pewien czas nie był tak mocno używany, jest jednocześnie bardzo naturalnym interfejsem, a z drugiej strony jako podcaster nie mogę chyba nie cieszyć się z racji na to, że tym bardziej technologie głosowe co raz szerzej wchodzą do użycia.

Kasia: Dokładnie.

Krzysztof: A właśnie, wobec tego w jakich branżach najczęściej wykorzystuje się te technologie głosowe? Czy to jest tylko rynek B2C? Rynek taki e-commerce’owy? Czy też może jakoś szerzej możemy obecnie mówić o wykorzystaniu technologii głosowych?

Rafał: Wiesz co, B2C, to jest to z czym najprawdopodobniej większość z nas będzie miała styczność albo już miała styczność właśnie jako konsument. Większość z nas kojarzy Siri, która rozpoczęła trochę taki trend asystentów głosowych, bodajże w 2011 roku była premiera pierwszej wersji Siri, na początku trochę z niej się podśmiewywali, ale koniec końców popchnęła temat do przodu. W tym momencie mamy Google Assistant, Alexa, które też są szeroko spopularyzowane w świadomości ludzi, więc to jest jeden z takich aspektów. To są asystenci głosowi, z którymi styczność mamy chociażby przez smartphony, na zachodzie sporo osób ma smart speakery, o których pewnie też za chwilę będziemy trochę więcej mówili, które też nam pozwalają nam wchodzenie w interakcje z asystentami głosowymi, natomiast same technologie głosowe, to jest trochę szersza perspektywa, bo asystenci głosowi, to jest tak naprawdę konsekwencja tego, że mamy rozpoznawanie głosu, które działa całkiem dobrze, ma gdzieś około 95% dokładności, co jest naprawdę dobrym wynikiem i też wszystkich prac nad rozumieniem języka naturalnego przez komputery, które sprawiają, że możemy wykonywać jakieś akcje za pomocą głosu i to, co jest też bardzo ciekawe, to, że same te technologie, o ile my je widzimy na rynku B2C, one mają trochę zastosowań przemysłowych i te zastosowania rosną. Myślę, że takim najciekawszym case study, które w tym momencie możemy znaleźć, zastosowania takiego przemysłowego, to jest to, co zrobił McDonald w Stanach właśnie z wykorzystaniem tych technologii, czyli rozpoznawania głosu i przetwarzania języka naturalnego, żeby wspierać pracę w McDrive’ie. Bo ile u nas McDrive jest prosty, o tyle w Stanach jest multum akcentów i czasem człowiek, który siedzi i zbiera zamówienia, ma problem, żeby usłyszeć, o co chodzi. Wiadomo, ktoś mówi z jakimś teksańskim akcentem, który jest ciężki do zrozumienia, natomiast w momencie, w którym wepniemy tam po drodze jeszcze Machine Learning, rozpoznawanie głosu, ta technologia jest w stanie rozpoznawać, co mówi klient, co próbuje zamówić i temu człowiekowi, który zbiera zamówienia, podrzucać podpowiedzi, co potencjalnie ta osoba mogła chcieć zamówić, czy to był cheesburger, czy to były frytki i to strasznie drastycznie zmniejszyło im ilość pomyłek w zamówieniach, więc to jest takie zastosowanie już bardziej przemysłowe, takie, którego nawet nie widzimy, a być może z niego korzystamy, one po prostu gdzieś są, tylko nie w taki jawny sposób.

Krzysztof: A padły tutaj jakieś nazwy, marki producentów, marki sprzętu, marki technologii. No właśnie, chciałem was zapytać, jakie firmy obecnie są zaangażowane w tworzenie takich technologii głosowych od strony technologii, od strony sprzętu? Ja przyznam szczerze, że kojarzę dwóch głównych gracz, czyli Google i Amazon, Siri, tak jak Rafał tutaj wspomniał, być może trochę wyśmiewane, ale jednak gdzieś tam się przepycha i pewnie pójdzie jeszcze bardziej do przodu, czyli te dwie, trzy, powiedzmy dwóch, trzech producentów jest takich najbardziej rozpoznawalnych, najbardziej znanych. Czy ktoś jeszcze tutaj na tym rynku się liczy?

Kasia: Jak patrzymy na rynek, to widzimy, że co raz więcej firm zaczyna się interesować tworzeniem własnych technologii głosowych i mamy np. Samsunga, który wypuścił Bigsi, czyli taką swoją własną platformę. Ona jest na razie w takich wczesnych fazach, natomiast bardzo dużo widzimy takiego rozwoju tej technologii właśnie u Samsunga. Jest też Facebook, który tworzy własny system rozpoznawania mowy i też wprowadza co raz więcej tych funkcji głosowych do swoich produktów, ale ostatnio miały miejsce targi CS w Las Vegas, te największe targi komercyjnych technologii w Stanach i one tak naprawdę były zdominowane przez różne firmy, które może nawet nie tylko tworzą swoje własne, customowe produkty, ale można powiedzieć, że upychają ten głos do swoich własnych produktów, które koniec końców trafiają do konsumentów, więc widzimy co raz więcej i też widzimy mocne ruchy tych takich technologicznych graczy i to myślę, że jest bardzo ciekawe w takim szerszym kontekście.

Krzysztof: Pewnie. Należy przypuszczać, że co raz więcej takich graczy będzie wchodziło, myślę, że co raz więcej firm, o których może nawet nie słyszymy, albo niektórych nie kojarzymy z tymi technologiami, będzie chciało kawałek tego tortu dla siebie zabrać, a przynajmniej mam taką nadzieję, że tak się będzie działo. Porozmawiajmy o Siri chwilę. Tak troszeczkę podchodzi się do tej technologii nie raz z pewnym żartem, ja nawet gdzieś tam słyszałem, że tak de facto technologia, która stoi za Siri, to jest po prostu gdzieś tam taka sieć Ifów, które mają za zadanie rozpoznawanie tego, co chcemy przekazać, to oczywiście jest pewien żart, ale ta technologia jeszcze powiedzmy nie jest aż tak dojrzała, jak inni konkurenci. Chciałem was zapytać, jaką rolę na scenie technologii głosowych odgrywa obecnie Siri? Dużo się mówi o zastosowaniu uczenia maszynowego, z drugiej strony są też głosy, że to Siri niekoniecznie musi być to uczenie maszynowe być bardzo mocno zaimplementowane, że być może są to jakieś inne rozwiązania, typu drzewa decyzyjne, z drugiej strony ilość sprzętu Apple, które wspiera Siri jest tak duża, że po prostu się nie da tej technologii gdzieś tam pominąć, dlatego chciałem was zapytać o wasze zdanie, o waszą opinię. Jaką rolę obecnie odgrywa Siri, jeśli mówimy o technologiach głosowych?

Rafał: Tak jak wspominałeś. W sumie, tak jak mówiliśmy wcześniej, Siri było chyba takim pierwszym mainstreamowym asystentem głosowym, więc w 2011 roku naprawdę zrobiła dużo szumu wokół samej technologii, ludzie zaczęli się tym interesować i czytałem kiedyś blog posta pisanego przez byłego inżyniera Appla, który właśnie opowiadał o tym jak wyglądała pierwsza wersja Siri i to rzeczywiście była technologia rozpoznawania głosu plus cała masa ifów, wyrażeń regularnych, które próbowały dopasować to, co powie człowiek, do konkretnej akcji, którą Siri potrafiła wykonać. Natomiast to były wczesne wersje. Część ludzi, która korzystała z tego, która pamięta jak to działa, nie było to aż takie gładkie jak teraz, w tym momencie Siri zrobiła duży postęp, natomiast coś co widzimy, to to, że jest trochę do tyłu względem konkurencji. Przez konkurencje rozumiejąc Amazona i Alexa, jak również Googla z Assistant’em. Coś, co ma w szczególności Google, to bardzo fajna integracja asystenta z całym ekosystemem Googla plus też otwarcie na customowe rozwiązania, które jest dostępne zarówno w przypadku asystenta, jak i w przypadku Alexy, czyli możemy właśnie budować aplikacje głosowe na asystenta, na Alexe, co koniec końców dla użytkownika objawia się tym, że po prostu ten asystent jest o wiele ciekawszy, bo on potrafi realizować więcej funkcji niż to, co zostało dostarczone przez producenta. W przypadku Siri, całkiem niedawno Apple obudził się i udostępnił możliwość budowania customowych aplikacji voice’owych, natomiast to jest dalej strasznie ograniczone, oni obsługują chyba 6 albo 8 use case’ów zdefiniowanych przez Apple i nie pozwala to na pełne rozwinięcie skrzydeł Siri. Natomiast, co jest też ciekawe, to obserwujemy sobie co się dzieje w świecie voice’a i w ostatnich miesiącach Apple wrzucił strasznie dużo ofert pracy, właśnie dla designerów, dla developerów związanych z światem konwersacyjnych interfejsów, w szczególności interfejsów głosowych, więc widzimy, że gdzieś powoli będzie próbował to nadrobić. Inna rzecz jest taka, że Apple, to by było 2 lata temu, wypuścił własny Smart speaker, trochę w odpowiedzi na to, co zrobił Amazon z Eco z Alexą i Google z Homem, natomiast nie udało mu się zebrać zbyt dużej porcji rynku za pomocą tego Smart speakera. To, co się stało w ostatnich dniach, to Apple ogłosił plany, że włączy tego homepoda, jak nazywa się ich Smart speaker, do chińskiej dystrybucji, więc widać też, że gdzieś powoli zaczynają nadganiać temat. W tym momencie to jest trochę taki niszowy produkt, natomiast bardzo spopularyzowany przez Smartphone’y. Możemy spodziewać się jednak, że wróci do gry za niedługo.

Krzysztof: Ja jestem ciekawy właśnie jak to będzie wyglądało. A wspomnieliśmy tutaj o uczeniu maszynowym, jeżeli chodzi o takie podstawy technologiczne, chociażby z rozpoznawaniem właśnie mowy, czy później w jakimś budowaniu odpowiedzi na to, co chcemy właśnie od Asystenta, od Siri, czy od Alexy. Zastanawiam się, czy technologie głosowe mają obecnie bardzo duże powiązanie z uczeniem maszynowym? Jak ten wpływ się przedstawia? Jak ten wpływ wkomponowuje się uczenie maszynowe w cały ten stuck technologiczny, który stoi za technologiami głosowymi?

Rafał: Zdecydowanie przetwarzanie, czyli zanim zrobimy cokolwiek z komendą użytkownika, musimy ją najpierw przetłumaczyć tak naprawdę z fal dźwiękowych na tekst, który możemy sobie potem obrobić w jakiś automatyczny sposób i z tego wyciągnąć rzeczywiście jakąś intencję użytkownika, żeby potem ją zrealizować. Więc takim pierwszym krokiem, który tutaj się pojawia, to jest właśnie rozpoznawanie mowy. I tak naprawdę moment, w którym rozpoznawanie mowy doszło do takiego stanu, w którym zaczęło być używalne, to był moment, w którym te technologie zaczęły się bardzo mocno rozwijać, więc to jest taki pierwszy krok, który jest mega istotny, bo bez tego nie bylibyśmy w stanie zrobić nic więcej, drugą sprawą jest samo przetwarzanie języka naturalnego, tam uczenie maszynowe, nie powiedziałbym, że stanowi całość, natomiast też ma swój wkład, chociażby na to w jaki sposób jesteśmy w stanie analizować zdania. W momencie, w którym Machine Learning doszedł do obecnego stanu, też widzimy, że strasznie zaczął się rozwijać temat samego przetwarzania języka naturalnego, czyli już tego tekstu i zaczął dawać o wiele lepsze wyniki, niż wcześniej.

Krzysztof: Padło tutaj takie stwierdzenie, czy taka definicja smart speakers, i o ile faktycznie badania pokazują, że na zachodzie mnóstwo ludzi już posiada takie urządzenia, o tyle w Polsce, pewnie dla niektórych może być to zupełnie coś nowego, zupełnie nowe pojęcie. Chciałem was poprosić o krótkie zdefiniowanie, krótkie powiedzenie, czym są smart speakers od strony takiej użytkowej, też technologicznej, co za tym stoi i właśnie jaki jest poziom penetracji rynku powiedzmy tego typu urządzeń na zachodzie, a jaki u nas, jeśli jakieś dane na ten temat może już macie?

Kasia: Smart speakers, czyli inteligentne głośniki, to są takie głośniki, które możemy sobie postawić w domu, one są większe, mniejsze, mają wyświetlacz, albo nie mają wyświetlacza, w każdym razie służą nam za taki entry point do całego kontaktu z tą technologią głosową. To jest np. taki głośnik, który może sobie stać u nas salonie i my bez w ogóle sięgania po swój telefon albo komputer, mamy dostęp do produktów z których korzystamy na co dzień. Możemy sobie odpytać Alexa albo Googla, o to, żeby nam zamówiło pizzę do domu, albo, żeby sprawdziło stan naszego rachunku, albo, żeby nam zapisało coś na liście zadań, więc to jest takie małe urządzenie, które, pomimo tych swoich niewielkich rozmiarów, daje nam dostęp do technologii i tak na dobrą sprawę, idąc już krok dalej, to jest też taki nowy interfejs dla nas jako dla użytkowników technologii, żeby wchodzić w interakcję, bo tutaj nie mamy niczego graficznego, nie mamy przycisków, które nam mówią, co się zadzieje, tylko ta cała nasza interakcja odbywa się naturalnymi zdaniami i odbywa się omalże tak, jakbyśmy rozmawiali z drugą osobą i to jest takie trochę niebezpieczne stwierdzenie, natomiast tak trochę jest. Idąc dalej, jeżeli chodzi o to, co mówiłeś, czyli taki poziom penetracji rynku, to na zachodzie smart speaker są bardzo znane i bardzo popularne. W tym momencie w Stanach jedna trzecia, jedna czwarta wszystkich gospodarstw domowych w ogóle ma taki smart speakers u siebie, więc to jest ogromny rynek. Widzimy coś podobnego w Niemczech, nie widzimy jeszcze tego u nas, ale to jest też związane z tym, że ta technologia jest niesamowicie związana z językiem, więc język tutaj gra kluczową rolę. Bardzo długo nie było wsparcia języka polskiego, wsparcie polskiego mamy dosłownie od paru dni i jeszcze niestety nie nasmart speakerach, więc jesteśmy też w takim miejscu w rynku, że będziemy mogli tego na żywo na sobie doświadczyć, jak to w ogóle będzie, jak te inteligentne głośniki nam wejdą do domu, jak będzie można je kupić, jak będzie można w ogóle zacząć z nich korzystać tak na co dzień.

Krzysztof: To myślę, że szykuje nam się taki boom na tego typu urządzenia, skoro na zachodzie aż tylu użytkowników z nich korzysta i skoro barierą faktycznie jest język. Wiem, że Google, tak jak powiedziałaś, od kilku dni u nas jest i nas wspiera, polski, więc myślę, że sprzedaż tych urządzeń poszybuje, jeśli faktycznie te trendy zagraniczne również będą miały odzwierciedlenie u nas. A właśnie, drugim takim potężnym rodzajem urządzeń, które dają nam dostęp do technologii głosowych, są smartphone’y. Tak naprawdę większość z nas ma je w swojej kieszeni, albo torebce, jak według was wygląda ten udział i wpływ, oddziaływanie smartphonów i technologii głosowych?

Rafał: Więc to jest generalnie dłuższa historia, bo od smartphone’ów wszystko się zaczęło, właśnie od Siri, które pojawiło się w Iphone’ie. To był też czas, kiedy smartphone’y przeżywały swój złoty wiek, był na nie strasznie duży popyt, użytkownicy odkrywali, co z tymi smartphonami można zrobić. Parę lat temu pojawiły się właśnie smart speakery, o których opowiadała Kasia i one bardzo szybko spenetrowały bardzo dużą część rynku, bo są supertanie urządzenia, one kosztują 50 dolarów, takie w najtańszej wersji, więc to jest idealny prezent świąteczny i one trochę jeszcze bardziej podbiły taką świadomość technologii voice’owych, bo to jest coś, co można kupić rodzicom na święta, w ogóle się nad tym nie zastanawiać i to jest fajny gadżet, taki głośnik z którym możemy sobie pogadać. Natomiast coś, co widzimy teraz, to trochę taki renesans technologii głosowych na smartphone’ach, to jest coś, co bardzo mocno widać po działaniach Google, taką ciekawą rzeczą jest to, że, o ile smart speakery są fajne koncepcyjnie, bo możemy sobie z nimi porozmawiać, o tyle z czasem, podczas projektowania właśnie aplikacji voice’owych, bardzo często okazuje się, że brak reklamy, to też jest jakaś przeszkoda jednak. Ciężko komuś pokazać rachunek, przedyktować rachunek, prawda? Więc jednak ten wyświetlacz daje nam całkiem dużą rolę do popisu i coś, co widzimy, to jak fajnie taki Google Assistant działa w smartphonie jako taki skrót do wielu akcji, które przez tego smartphona można wykonać, czyli zamiast odblokowywać smartphona, klikać po nim, żeby ustawić sobie jakieś powiadomienie, możemy chociażby w przypadku Pixela, który ma taki super skrót do odpalenia asystenta, wystarczy go po prostu ścisnąć z obu stron, możemy powiedzieć do telefonu, żeby nam ustawił takie i takie przypomnienie i tak naprawdę, w ten sposób załatwiamy dużo małych akcji, które normalnie musielibyśmy sobie poklikać po tym ekranie, więc to jest też taki obszar, gdzie te technologie głosowe bardzo mocno się rozwijają, coś, co my widzimy, to jak fajnie łączą się smartphony ze smart speakerami, czyli w sytuacji, gdy mamy smart speakera, który jest w domu, który gdzieś tam sobie stoi np. w kuchni, albo w dużym pokoju i którego możemy zapytać o pewne rzeczy, które nam są potrzebne, typu zamów pizzę, albo powiedz mi, jakie są wiadomości, tego typu rzeczy, o tyle części akcji taki smart speaker nie zrealizuje, więc wtedy bardzo fajnie działa coś w stylu przeniesienia człowieka do smartphona, gdzie dalej może korzystać z tego interfejsu głosowego asystenta, ale już w trochę inny sposób, taki trochę bogatszy.

Krzysztof: To jest bardzo fajna rzecz, którą powiedziałeś, bo na początku, czy też może przed naszą rozmową, to kojarzyło mi się coś takiego, że te technologie głosowe mają za zadanie wyprzeć albo zastąpić tradycyjne interfejsy, z którymi mamy do czynienia. Tymczasem teraz odnoszę wrażenie, że to jest bardziej taki komplementarny interfejs, który być może ma pomóc albo wspomóc niektóre działania, albo uprościć wręcz, niekoniecznie zastąpić i właśnie ta współpraca, o której powiedziałeś dosyć dobrze według mnie oddaje taką idee i tutaj też połączę to z takim pytaniem o to, jaki jest potencjał rynkowy tej technologii, bo skoro takie firmy jak Google, Amazon, czy Apple inwestują w technologie głosowe, to przypuszczam, że musi być to jakiś ich strategiczny cel, który wynika z jakichś prognoz rozwoju i musi być jakoś dosyć mocno uzasadniony, stąd moje właśnie pytanie, jaki jest potencjał rynkowy tych technologii?

Kasia: My się podłączamy do tych wielkich gigantów i twierdzimy, że ten potencjał jest ogromny i będzie jeszcze większy. Patrząc w ogóle na to, co się dzieje teraz na rynku, właśnie, wielkie firmy inwestują w technologie głosowe, pojawia się co raz więcej aplikacji, które są dostępne z tego poziomu głosu i też co raz więcej firm, tak jak na początku wspominaliśmy, bardziej B2C, zaczyna inwestować w swoje własne aplikacje. Jak patrzymy na rynek, to to jest mniej więcej to, co się działo 10 lat temu, gdy na całą scenę technologiczną wchodził mobile, czyli jakiś nowy interfejs, o którym też się mówił, że zastąpi komputery. Jak wiemy, 10 lat później nie zastąpił komputerów, ale właśnie dodał nam ten nowy rodzaj interfejsu i nowy rodzaj doświadczeń z technologią. Mobile uprościł wiele rzeczy, rozwinął wiele rzeczy i dał nam taki dostęp do technologii, który jest bardzo natychmiastowy i trochę tak się dzieje teraz z voicem, to nie jest coś, co wyprze telefony albo wyprze komputery, tylko to będzie właśnie nowy interfejs, który nam doda. I jeszcze tak patrząc na rynek, w tym momencie jesteśmy w takim miejscu, że mobile osiągnął swój szczyt. Wydaje nam się, że znamy wszystkie możliwości telefonów komórkowych, tych nowości z roku na rok pojawia się co raz mniej, bardziej idziemy w to, żeby to były potężniejsze sprzęty, jeżeli chodzi o to, co mogą zrobić, a niekoniecznie o to, jaki jest ich zakres, i w tym momencie wchodzi nam coś nowego, coś czego możliwości w tym momencie odkrywamy i coś, co właśnie nam doda inny rodzaj interfejsu i doda nam porozumienia się z technologią za pomocą mowy, czyli coś, co było trochę takie science fiction, a w tym momencie wchodzi do naszego codziennego życia.

Krzysztof: Ciekawe lata przed nami zatem. A właśnie, słucha nas wielu programistów, dlatego chciałem teraz zadać takie pytanie bardziej może techniczne, programistyczne, jak wygląda od strony programistycznej tworzenie aplikacji na platformy głosowe? Z jakich języków możemy skorzystać? Jak wygląda taki proces publikacji, przygotowania aplikacji? Czy to się bardzo mocno różni od aplikacji platform webowych, mobilnych?

Rafał: Ja bym to w dużej mierze porównał do platform mobilnych, bo jakby nie patrzeć, tworząc aplikacje głosowe, operujemy w kontekście jakiejś platformy, czy to jest Alexa, która oferuje jakieś możliwości, natomiast trzyma też to wszystko w ryzach i nie możemy wykraczać poza jej możliwości. Tak samo jest z Asystentem, gdzie też tworzymy aplikacje na platformę Asystenta i dla użytkownika korzystanie z tej aplikacji, w dalszym ciągu musi być spójne z tym user experiencem, którego doświadcza przy okazji korzystania z jakiejkolwiek innej akcji korzystania z Asystenta, więc tak zaczynając od początku tutaj tak jak wcześniej wspominaliśmy, pojawia się kwestia rozpoznawania głosu, przetwarzania języka naturalnego, więc do samego rozpoznawania głosu tutaj nie mamy nawet zbyt wiele do gadania. Wiadomo są jakieś kwestie prywatności i żadna z tych platform nie udostępnia surowych nagrań developerom, tylko dostajemy transkrypty, więc z jednej strony mamy tutaj pole do popisu, z drugiej strony dobre jest to, że nie musimy się tym przejmować. Wiadomo, tworzenie modeli uczenia maszynowego do rozpoznawania mowy, to jest dosyć ciężki temat, wymaga dużej ilości danych, żeby to nałożyć, więc to już dostajemy od samej platformy. Podobnie jest z tematem przetwarzania języka naturalnego. Tworzenie takiej aplikacji skupia się w dużej mierze wokół akcji, które możemy udostępnić użytkownikowi, więc obie z tych platform oferują narzędzia, które pozwalają na wytrenowanie pewnego modelu NLP do rozpoznawania konkretnych akcji, które my udostępniamy takiemu użytkownikowi. Możemy tam też stosować własne rozwiązania, są rozwiązania open source’owe, natomiast zarówno Google jak i Amazon dostarczają super narzędzia do tego stworzone, one są o tyle fajne, że mają graficzny interfejs, który dla developera nie musi być czymś najfajniejszym, wiadomo, fajnie się w Jasonach wrzuca różne konfiguracje, natomiast to jest o tyle fajne, że na takim etapie, pracują jeszcze designerzy, którym wygodniej jest po prostu wyklikać rzeczy i mogą sobie przeprowadzać takie zmiany bez nas. W dalszej części mamy już taką część stricte developerską, czyli tak naprawdę my dostarczamy takiej platformie API, które odpowiada na konkretne typy zapytań i steruje flowem takiej aplikacji. W przypadku Assistent Google, bardzo często jest to konwersacja wzbogacona o jakieś elementy wizualne, np. mamy do czynienia ze smartphonem Google Assistantem, możemy tam powrzucać też trochę grafiki, która pomoże użytkownikowi też w używaniu naszej aplikacji. I to jest tak pobieżnie tyle. Tam jest dużo jeszcze jakichś niuansów w środku i co też warto wspomnieć, to zanim opublikujemy aplikację na którejkolwiek z tych platform, musi ona przejść przez review, czy to Amazona, czy to Googla. Co jest ciekawe, to, że obie z tych firm, w tym momencie bardzo dużą uwagę skupiają na user experience. Oni nie chcą mieć w tych swoich store’ach przez które dystrybuują aplikacje voice’owe, aplikacje, które są trochę toporne, które odbiegają trochę od wzorców, które gdzieś tam widzimy w voice, więc przy okazji tego review, sprawdzają czy ona po prostu jest dobrze zaprojektowana, czy będzie fajnie działała dla użytkownika.

Krzysztof: Ja jeszcze tutaj pociągnę trochę ten temat, jeśli Rafał pozwolisz, mianowicie dwa pytania mi się pojawiły. Wspomniałeś o tym, że tak de facto logika, która steruje tą aplikacją, to jest zaszyta w API, które my wystawiamy, zatem tak de facto nie ma jakiegoś jednego języka programowania, tak de facto to, w czym zaprogramujemy serwis, który wystawia API, to jest tak de facto dosyć dowolna technologia, dobrze to zrozumiałem?

Rafał: Tak. Tutaj nie ma żadnych ograniczeń technologicznych. Tak długo jak wystawiamy jakiś m point po httpsie. Jedyne co, to jest trochę takich narzędzi developerskich, które ułatwiają zarządzanie całym procesem. To jest coś a la, wiesz, frameworki webowe, które tak naprawdę zapewniają ci jakąś obsługę requestów, jakieś podstawowe przetwarzanie, podstawowe templatowanie odpowiedzi itd., więc to samo mamy w przypadku voice’a. Tutaj takie wiodące narzędzia pojawiają się dla Java Scriptu i dla Pythona, więc mamy np. Alexa skill skit, którego Pythona implementacja jest bardzo fajna, bardzo przyjemna i upraszcza bardzo mocno tworzenie skomplikowanych odpowiedzi, które musimy dostarczyć Amazonowi. Tak samo Google i jago Actions Google Platform, też udostępnia bardzo fajne narzędzia tym razem dla Java Scriptu, które też pomagają nam właśnie w takim fasylitowaniu tego procesu, ale tak jak wspominałeś, możemy sobie wybrać, co chcemy.

Krzysztof: To fajnie, że nie jesteśmy przywiązani do jednej technologii, bo to myślę upraszcza wejście szerokiej rzeszy programistów, którzy są przyzwyczajeni do jakichś określonych języków programowania. Takie drugie pytanie, które mi się nasunęło, kiedy wspomniałeś o tych technologiach od strony developerskiej, to jest ten store, w którym de facto lądują aplikacje, z którego później możemy sobie te aplikacje instalować. Właśnie, to jest ciekawy proces, jak instalujemy np. aplikację na smart speakerze, de facto nie posiadając innego interfejsu niż głosowy, bardzo mnie to zaciekawiło?

Rafał: Wiesz co, takim może nie najprostszym, ale sposobem, który jest najpewniejszy, to jest po prostu wywołanie takiej aplikacji po nazwie. Nazwy muszą być unikatowe w obrębie store. To działa trochę jak domeny. Zaklepiemy sobie jakąś nazwę, ta nazwa jest nasza i użytkownicy mogą nas po niej znaleźć, więc w przypadku, gdy sobie wrzucimy do store Alexowego aplikację Porozmawiajmy o IT, użytkownicy, którzy powiedzą: „Ok, Alexa, Porozmawiajmy o IT”, ci użytkownicy po prostu trafią do naszej aplikacji. W przypadku, gdy mamy do czynienia z prostymi aplikacjami, które nie wymagają konfiguracji, która jest ciężka do zrobienia za pomocą komend głosowych, taka aplikacji od razu się uruchomi i będziemy mogli z niej korzystać. Jest też kwestia trochę bardziej skomplikowanych przypadków, np. gdybyśmy mieli do czynienia z bankiem, albo z jakimkolwiek typem commerce’u, gdzie jednak możemy podać trochę danych, jakiś numer klienta, hasło, albo adres do dostawy, takie rzeczy mogą być ciężkie do zrealizowania przez voice’a, więc jest też taka alternatywna ścieżka, czyli wyciągnięcie smartphona, który wtedy pełni rolę kompana dla smart speakera i na tym smartphonie możemy mieć aplikację Alexa albo Asystenta z tym samym kontem na platformie i tam wykonać taką konfigurację, która wymaga jakichś elementów wizualnych, więc to jest taka opcja numer dwa.

Krzysztof: Ok, skoro te nazwy są unikalne, to przypomina mi o tym, że chyba powinienem sobie je zarezerwować w razie czego. A właśnie, mówiliśmy tutaj bardzo dużo o rozpoznawaniu głosu, o rozpoznawaniu mowy, jako tym początkowym elemencie tej takiej fazie początkowej całego tego procesu, wspomniałeś też o tym, że to jest taka usługa, która najczęściej działa w chmurze, nie mamy bezpośredniego dostępu do tego, jedynie kontaktujemy się po jakimś API. Czy to jest jedyne rozwiązanie? Tak to najczęściej funkcjonuje? Dlaczego tak to właśnie jest rozwiązane? Czy tutaj tylko jak gdyby ten poziom skomplikowania stoi za tym?

Rafał: Więc mamy właśnie dwie kwestie, czyli rozpoznawanie mowy, drugą jest samo przetwarzanie już rozpoznanego tekstu na już jakieś konkretne intenty, więc w przypadku rozpoznawania mowy, w kontekście samych smartspickerów i asystentów głosowych, tam musimy zdać się na łaskę platformy Google lub Amazona, właśnie ze względu na to, że oni nie chcą nam przekazywać części rzeczy, chociażby to ze względu na prywatność, użytkownicy mają dużo obaw w tym temacie, natomiast same modele Machine Learningowe do rozpoznawania głosu, żeby taki model wytrenować, żeby on działał dobrze, potrzeba olbrzymich zasobów i to pod kątem danych, i to pod kątem mocy obliczeniowej, dlatego w tym momencie najlepsze rozwiązania, to są właśnie rozwiązania dostarczone przez Googla, Amazona, Microsoft, którzy po prostu dostarczają to szerokiej ilości użytkowników i mają zasoby, żeby takie modele wytrenować z bardzo fajną dokładnością. Drugą kwestią jest przetwarzanie języka naturalnego, które jest mimo wszystko trochę prostsze i tutaj mamy dostępne rozwiązania właśnie od Amazona w postaci Alexa Skill Skit, mamy rozwiązania od Google, czyli dialog flow, który też załatwia tą część rozpoznawania tekstu na jakąś akcję w aplikacji i tutaj już są trochę lepsze rozwiązania open source’owe, jest np. takie narzędzie, które nazywa się rasa, ono jest tworzone przez taką firmę z Niemiec, i to jest tak naprawdę coś, czym możemy potencjalnie zastąpić dialog flow, jeśli np. przestanie nam wystarczać, będziemy chcieli to gdzieś sami dogrywać, więc alternatywa jest, natomiast te rozwiązania, które dostajemy w platformach one są po prostu z jednej strony proste w użyciu, z drugiej strony są też całkiem dobre jakościowo.

Krzysztof: Ok, dzięki za tą odpowiedź i teraz już obiecuję ostatnie mocno technologiczne pytanie, z czego składa się taki powiedzmy development kit dla Alexy, albo Google Assistant, wspomniałeś już o kilku narzędziach, ale domyślam się, że to pewnie jest znacznie szersze spectrum?

Rafał: Tak, więc mamy narzędzia, czyli z jednej strony rozpoznawanie mowy, które działa sobie gdzieś w chmurze, mamy narzędzia do konfigurowania całego silnika przetwarzania języka naturalnego, mamy narzędzia dla developerów, które w dużej mierze tak naprawdę opakowują to wszystko, co dostajemy z API, odpowiedniej platformy, z drugiej strony opakowują nasze odpowiedzi, które z perspektywy developera często są w miarę proste, natomiast API mają dosyć duże oczekiwania odnośnie jakiejś struktury tych wszystkich odpowiedzi, więc to jest coś, co dostajemy i co niesamowicie ułatwia rozpoczęcie pracy z taką platformą. Inna kwestia, to są np. narzędzia developerskie, takie comand linow, które załatwiają proces publikowania aplikacji voice’owej, albo ostatnio Amazon też wypuścił bardzo fajne narzędzie do testowania silnika NLP. W momencie, w którym sobie go konfigurujemy jakimiś np. przykładowymi frazami, które użytkownik może powiedzieć, żeby wykonać jakąś akcję, tak długo jak to jest proste, jest ok, natomiast w momencie kiedy nam to wszystko puchnie, może się zdarzyć, że pojawi się tam trochę problemów na samym etapie wyciągania intencji użytkownika z tekstu, np. zdarza się, że wytrenujemy sobie model w taki sposób, że będzie miał zbyt podobne jakieś zdania treningowe dla dwóch różnych intencji i będzie się po prostu mylił, odpalał nie to czego się spodziewamy, więc Amazon dostarcza bardzo fajne rozwiązania, które pozwalają zautomatyzować też testowanie takie integracyjne.

Krzysztof: A słucha nas sporo osób, które pracują w sposób zdalny. Czy moglibyście powiedzieć o takiej interesującej aplikacji na Amazon Alexa jaką jest Harvest?

Kasia: To jest aplikacja jedna z pierwszych, którą stworzyliśmy w Upside, głosowa, i to jest aplikacja tak jak wspomniałeś na platformę Amazona, na Alexę, która pozwala mierzyć czas pracy, a raczej kontrolować narzędzie do czasu pracy. Mamy Harvest, Harvest to jest właśnie aplikacja za pomocą której można się rozliczać ze swoim pracodawcą, albo z samym sobą godzinowo, więc jest dużo osób, które nas słuchają, które pracują zdalnie, dużo osób pracuje w IT, więc pewnie to jest rzeczywistość dla nas bardzo znana, że trzeba zapisywać ile czasu spędza się w pracy. I do tej pory, było trzeba sobie odpalać jakiś program, zaznaczać kiedy zaczyna się pracę, zaznaczać, kiedy się skończyło pracę i najlepiej jeszcze napisać nad czym się pracowało, żeby tego nie zapomnieć przy okazji jakichś raportów. I to jest proces, który nie jest najfajniejszym procesem, to jest czasochłonne, to jest pracochłonne i to jest też taka zmiana kontekstu, która nie zawsze jest fajna i nie zawsze jest nam właśnie jako osobom, które tak pracują po drodze z tym, więc stworzyliśmy aplikację, która jest sterowana stu procentowo głosowo, więc w momencie jak pracujemy i np. koło swojego stanowiska pracy, koło swojego komputera, mamy postawioną Alexę, to możemy kontrolować Harvesta za pomocą właśnie komend głosowych, czyli możemy powiedzieć Alexa rozpocznij timer, albo Alexa zatrzymaj timer i Alexa dodaj np. projekty graficzne do mojego czasu pracy i w tym momencie umożliwiamy sobie takie bardzo gładkie trackowanie tego wszystkiego i bardzo gładkie trackowanie czasu, i w tym momencie ta aplikacja jest dostępna na rynek amerykański i dlatego na rynek amerykański, ponieważ tam jest największa liczba osób, które faktycznie pracują zdalnie i które korzystają z tej aplikacji, a samo tworzenie tej aplikacji myślę, że wspominamy bardzo fajnie, bo to był też jeden z takich pierwszych momentów, kiedy musieliśmy się zmierzyć z tematem projektowania głosowego.

Krzysztof: Fajna aplikacja, też by mi się przydała. Czy myślicie, że po tym jak Google Assistance wprowadza support dla języka polskiego, to jakieś plany powiedzmy w tym kierunku z waszej strony też pójdą, żeby na rynek polskojęzyczny w jakiś sposób tą aplikację udostępnić?

Kasia: Myślę, że jak najbardziej. Ja w ogóle na razie czuję swój osobisty niedosyt tworzenia aplikacji na rynek polski. Do tej pory pracowaliśmy głównie z klientami ze Stanów i z Niemiec, więc ta cały czas praca była w innym języku niż nasz ojczysty, w tym momencie mamy taką możliwość i w tym momencie jesteśmy też przy okazji pracy nad pierwszą aplikacją polską i mówiąc osobiście, ja mam z tego ogromną frajdę i bardzo mi się to podoba.

Krzysztof: Super. A wiem też, że stworzyliście taką bibliotekę Java Scriptową Voice Commerce JS, wydaliście ją jako open source, jest to biblioteka do powiedzmy integracji e-commerce i asystentów właśnie głosowych, moglibyście też opowiedzieć więcej na temat tej biblioteki?

Rafał: Tak, wiesz co, swego czasu pracowaliśmy trochę z różnymi e-commercami, czy to pracując nad strategiami voice’owymi, czy też nad jakimiś mniejszymi wdrożeniami i coś, co nam wyszło przy okazji tego, to, że jest bardzo mała świadomość dostępności takich technologii związanych z voicem w środowisku e-commerce’owym. W szczególności wśród developerów, dla których w przypadku e-commerce, jest np. całe grono developerów, którzy niesamowicie dobrze znają się na np. Magento, który jest takim najpotężniejszym narzędziem do tworzenia e-commerce’ów, natomiast dla tych ludzi często próg wyjścia, chociażby w takiej technologii związanej z voicem jest dosyć duży, bo z jednej strony trzeba w ogóle ogarnąć technologię samą w sobie, z drugiej strony, żeby zrobić coś fajnego, chociażby jakiś prototyp trzeba też wykombinować jak połączyć jedno z drugim, więc tak też powstał voice commerce JS, to jest taka nasza biblioteka open source’owa, która działa jak trochę taka zajawka, żeby pokazać, że się da i, że fajnie można coś tam pokombinować z tym tematem, więc, to co nam załatwia, to pozwala od tak spiąć się z Magento, który już sobie gdzieś działa nawet produkcyjnie i dobudować do tego bardzo prostą, voice’ową integrację, więc w tym przypadku mamy tam takie dwa najpopularniejsze case’y związane z e-commercem, czyli śledzenie stanu zamówienia na zasadzie zamówiłem coś w sklepie, mam Alexe, która stoi sobie gdzieś w kuchni i tam ją odpytam ok, kiedy będzie kurier, więc takie coś bardzo łatwo podpiąć, a drugą rzeczą jest reorder ponowienie ostatniego zamówienia, które w części branż, np. właśnie przy okazji dostaw pizzy, gdzie często zamawiamy taką pizzę jako ostatnio, pozwala na złożenie tego szybkiego zamówienia bez myślenia. To też bardzo fajnie wpisuje się w możliwości smart speakerów, gdzie nie ma ekranu, ciężko pokazać multum opcji, natomiast właśnie rzeczy typu pizza, albo np. jedzenie dla kota, to są często rzeczy, które zamawiamy automatycznie, bez myślenia, więc w niektórych sklepach takie coś się super sprawdza, ale to jest taka baza, którą możemy sobie rozszerzać już na bazie swojej kreatywności, czy też kreatywności swoich designerów, o jakieś trochę mocniejsze case’y, które już są bardzo specyficzne dla konkretnego sklepu.

Krzysztof: Chciałbym was teraz zapytać, jak ten rynek, czy też rozwój technologii głosowych wygląda w Polsce? Bardzo mocno odstajemy od zagranicy?

Rafał: Trochę tak. Jakby nie patrzeć Alexa wyszła w Stanach już ponad 3 lata temu i wtedy właśnie zwiększyła się świadomość tych technologii, ona wtedy też pojawiła się w domach, ludzie zaczęli z tego korzystać, więc jakby nie patrzeć, tam jest trochę większa świadomość i jest też trochę większa dojrzałość użytkowników, w sensie oni już nie boją się tej technologii, oni z niej normalnie korzystają i można eksperymentować z co raz silniejszymi zastosowaniami, odchodząc trochę od takich pierwszych prostych np. gier sterowanych głosem, po jakieś trivia albo quizy i przechodzisz w stronę takich bardziej poważnych zastosowań typu commerce albo obsługa bankowości, u nas w zasadzie w zeszłym tygodniu pojawił się Google Assistant i to jest pierwsza z tych technologii, z którą mamy do czynienia po polsku, co jednak jest dużym wyznacznikiem gotowości takiej technologii. Bo jakby nie patrzeć, sam język, to, że technologia jest dostępna w naszym języku, ona sprawia, że będziemy z niej korzystać, dla wielu ludzi, nawet jeśli posługujemy się angielskim, korzystanie z jakiejś technologii po angielsku, to jest jednak dosyć duży problem, bo nie zawsze nas dobrze zrozumie, nie czujemy się na tyle pewnie, żeby z tego korzystać poważniej. W momencie, w którym mamy dostęp do naszego ojczystego języka, którym się posługujemy najbardziej swobodnie, to strasznie też zmienia adopcję takich technologii i to też sprawia, że z takiego grona ery adapterów, z którym mamy do czynienia teraz w Polsce, czyli ludzi, którzy kupili sobie gdzieś smart speakera Google, smart speakera Amazona za granicą, przywieźli do Polski i korzystają z tego po angielsku, bo po prostu są ciekawi tej technologii. W momencie, kiedy mamy do czynienia z językiem Polskim, który jest naturalnie dostępny, w przypadku wirtualnego asystenta, to jest technologia, która jest w stanie wyjść z poza tego grona właśnie do takich normalnych konsumentów i to jest tak naprawdę moment, w którym ta technologia zacznie się tak poważnie rozwijać.

Krzysztof: Dokładnie. Myślę, że to szybko nadrobimy zaległości, a no rynek już trochę zebrał mam wrażenie feedbacku, informacji na temat technologii głosowych, trochę już się dzieje i wydarzyło, jakie według waszej opinii są takie obecnie największe problemy, wyzwania, jakieś ograniczenia tych technologii, to zarówno w kontekście produktowym, jak i całości jako rynku, z czym się rynek najbardziej zmaga w tej chwili?

Kasia: Myślę, że tutaj właśnie trzeba się popatrzeć z paru perspektyw. I mamy np. perspektywę użytkowników, czyli osób, które dopiero się zaznajamiają z tą technologią, które mają dostęp do Google Assistanta od niedawna, więc to jest jeszcze moment kiedy testujemy, zadajemy może takie głupie pytania temu Asystentowi, żeby sprawdzić, co potrafi, instalujemy pierwsze aplikacje i sprawdzamy, co jest w ogóle możliwe, przy okazji budując zaufanie do tej technologii, więc to jest tak jakby jedna perspektywa, druga perspektywa, to myślę, że są firmy, które patrzą na voice jako na nowy kanał wchodzenia w interakcje ze swoimi klientami, czy to kanał sprzedażowy, czy to kanał marketingowy, czy wsparcie obsługi klienta, i myślę, że jeszcze milion innych zastosowań, które tak na dobrą sprawę ta technologia ma. I te firmy wchodzą na pole, które jest bardzo nieznane w tym momencie i jest bardzo otwarte, jest otwarte na nowe wdrożenia, na nowe sposoby rozwiązywania problemów i to jest też pole, gdzie na razie nie ma zbyt dużej konkurencji i to myślę, że to jest bardzo ciekawe w kontekście firm, żeby zacząć się tym interesować właśnie teraz, kiedy technologia dopiero buduje swoją pozycję. Mówiąc dalej o takich wyzwaniach i ograniczeniach, myślę, że sam design i development, to jest coś, co cały czas się rozwija i tak jak np. patrzymy na interfejsy graficzne i załóżmy na to, jak są projektowane aplikacje mobilne, w tym momencie mamy gdzieś tam szereg zasad, do których się stosujemy, np. mamy menu hamburgera i wiemy, co się stanie jak klikniemy na to menu hamburgera, natomiast, jeżeli chodzi o voice nie mamy jeszcze czegoś takiego, więc w momencie jak tworzymy produkty na te platformy, to jest dużo rzeczy, które trzeba eksperymentować, trzeba tworzyć samemu i też to jest ten moment, kiedy twórcy tej technologii, czy designerzy, czy developerzy są takimi mocnymi pionierami i tak na dobrą sprawę teraz się kształtują te zasady, które myślę, że w perspektywie paru lat będą zasadami, które będą obowiązywać.

Krzysztof: Właśnie, chciałbym troszkę rozszerzyć ten temat interfejsu, bo gdy mówimy o takim asystencie głosowym, najczęściej właśnie tak jak kila razy już tutaj padło, rozumiemy go jako inny rodzaj interfejsu, człowiek maszyna. Chciałbym was zapytać, czy są jakieś dobre praktyki, jakieś dobre zasady, którymi powinniśmy się kierować przy projektowaniu takiego interfejsu, w nawiązaniu do dwóch różnych kwestii, bo Rafał wspomniał o tym, że jest to jakiś element review takiej aplikacji, którą np. tworzymy, czyli jakieś być może sztywne zasady, a z drugiej strony jest to właśnie designowanie tego interfejsu, tak jak w przypadku aplikacji webowych, jest design, za tym idzie implementacja, przy czym design kieruje się jakimiś najlepszymi praktykami albo trendami, które obecnie są na rynku, a jak to jest w przypadku technologii głosowych, czy te dobre praktyki są, czy to jest jeszcze na razie takie coś, co nie jest określone, a z czym się dopiero eksperymentuje?

Kasia: I tak, i nie. Wiele rzeczy jest określonych i to są rzeczy, które powstały biorąc pod uwagę całościowy rozwój technologii głosowych, czyli nawet nie mówimy tutaj o asystentach głosowych, ale dużo, dużo wcześniej, kiedy były pierwsze próby stworzenia jakiegokolwiek interfejsu, do którego się mówiło, więc mamy tutaj taki szereg zasad, których się trzymamy, ale jest jedna zasada, która przyświeca im wszystkim i ta zasada brzmi, że nie można kopiować interfejsu graficznego jeden do jednego przy voice, to jest niemożliwe z wielu powodów i takim głównym powodem jest to, że kontaktując się z technologią, słysząc ją i mówiąc do niej, używamy jako ludzie naszej pamięci krótkotrwałej, więc nie możemy polegać na niczym, co nam zostanie, gdzieś na dłużej, a wiadomo, że jako ludzie mamy bardzo ograniczoną pojemność pamięci krótkotrwałej, więc w tym momencie takim wyzwaniem jest ilość informacji, którą możemy przekazać użytkownikowi, bez tego momentu, że tracimy użytkownika, więc jak np. możemy sobie teraz odpamiętać jak wygląda strona banku do której się logujemy, ja np. patrzę na swój bank i widzę mnóstwo informacji, widzę promocje, kredyty, nowe wnioski, które mogę złożyć i to są te wszystkie rzeczy, które ja mam dostęp za pomocą jednego spojrzenia, ale nie będę miała dostępu za pomocą jednego takiego wejścia w głos, tak to może powiem.

Krzysztof: To może ten interfejs nie będzie tak zaśmiecony, jak inne właśnie, z którymi mam obecnie do czynienia. Zobaczymy. Ciekawe czasy. Wiem, że to może być trudne pytanie, bo rozmawiamy o technologii, która jest bardzo młoda i która tonicznie się rozwija, ale w którym kierunku według was zmierzają te technologie? Czy widać jakieś trendy, które będą kreować przyszłość w najbliższym czasie?

Rafał: Jest dużo aspektów, jeżeli chodzi o kierunek, w którym zmierzają technologie głosowe, po pierwsze smart speakery, naprawdę dużo dobrego tutaj podziałały, bo one sprawiły, że ta technologia stała się tutaj dostępna, więc o ile mieliśmy wcześniej do czynienia z technologią, która była w niektórych smartphonach, w szczególności tych topowych, i to jeszcze w urządzeniu, z którego nam jest łatwiej korzystać za pomocą palców, klikając po rzeczach, nie widzieliśmy jej pełnego potencjału. W momencie, w którym Amazon puścił smart speakery, które w bardzo szybkim czasie, z racji tego, że były tanie, że były łatwo dostępne i były po prostu ciekawym gadżetem, które się bardzo szybko rozpropagowały, zobaczyliśmy, co ta technologia potrafi robić i zaznajomiliśmy z nią ludzi, więc w tym momencie, ci wcześniej użytkownicy, osiągnęli już taką pewną dojrzałość. Jak kupujemy jakiś nowy gadżet do domu, np. coś co widzieliśmy przy okazji smartphonów, wiele osób, jak kupiło sobie smartphone, instalowało angry birds i grało, bo to było fajne, interaktywne itd. Z tym samym mieliśmy do czynienia przy okazji smart spickerów, przy okazji voice’a, natomiast jest taki moment, w którym ludzie zaczynają to traktować trochę poważniej i zaczynają eksplorować, co tu jeszcze można z tym ciekawego podziałać? Więc sami użytkownicy powoli przekonują się, przynajmniej ci na zachodzie, przekonują się do takich trochę poważniejszych zastosowań, typu commerce, typu właśnie jakaś podstawowa bankowość, którą widzimy już w Stanach np. raczkującą, a widzimy też olbrzymi potencjał już w tym momencie, jeżeli chodzi o IT, bo ile inteligentne żarówki sterowane smartphonem, są fajnym gadżetem, jeżeli myślimy o tym, jako o gadżecie, o tyle na co dzień, to nie jest zbyt praktyczne, bo równie dobrze możemy klikać pstryczkiem na ścianie, jak klikać po smartphonie, natomiast w przypadku, gdy mamy dostęp np. do sterowania home ormation za pomocą naszego głosu, to jest moment, w którym te inne, wcześniej już dostępne technologie, one pokazują swój pewien potencjał, więc głos jako dodatek, rozszerzenie czegoś, co już istnieje. Coś, co jeszcze widzimy jako taki trend, to jest właśnie nie traktowanie głosu jako takiego jedynego interfejsu, który będzie dostępny w przyszłości, tylko jako czegoś,co jest już komplementarne do tego, co już znamy. Tak jak kiedyś mobile był dodatkiem do weba i udostępniał fajnie skrojone funkcjonalności dla użytkowników telefonów komórkowych, o tyle teraz właśnie taką kwintesencją voice, jest fajne wycięcie funkcjonalności jakichś usług oferowanych np. przez jakieś brandy pod to, co możemy zrobić za pomocą voice i wyciśnięcie z tego maksimum, tak, żeby to oczywiście się ludziom podobało, żeby z tego chcieli korzystać.
gg
Krzysztof: Wygląda całkiem nieźle. Kasiu, Rafale, wam bardzo dziękuję za ciekawą rozmowę. Jestem przekonany, że wielu słuchaczy dowiedziało się czegoś nowego, być może niektórych zainspirowaliście, żeby właśnie w tym kierunku pokierować swoją karierą, jestem przekonany, że to jest branża, która dopiero pokaże swój potencjał. A tymczasem zapytam was, gdzie was można znaleźć w internecie? Jak najlepiej się z wami skontaktować?

Kasia: W internecie jesteśmy praktycznie na wszystkich social mediach, można nas znaleźć jako Upside. Dodatkowo zapraszamy też na naszą stronę internetową, upsidelab.io, gdzie prowadzimy bloga, gdzie w sumie od dłuższego czasu opisujemy różne rzeczy, które nas osobiście ciekawią. W voicie, gdzie też opisujemy use case naszych wdrożeń i też naszych produktów, które tworzymy. Dodatkowo, oprócz internetu, jesteśmy też stacjonarnie i fizycznie w Krakowie, gdzie organizujemy meet upy, które się nazywają Create for voice i to są meet-upy dla osób, które są zainteresowane tym, jak w ogóle wyglądają technologie głosowe od strony twórcy, ale również od strony użytkownika tych technologii. Tematy mamy bardzo szerokie i myślę, że następny meet-up prawdopodobnie będzie w lutym, więc zapraszamy do śledzenia nas.

Krzysztof: Tak, w imieniu moich gości, zapraszam serdecznie. Wszystkie linki oczywiście znajdą się w opisie do tego odcinka. Ja wam bardzo jeszcze raz dziękuję i do usłyszenia, mam nadzieję wkrótce. Cześć.

Kasia: Dzięki. Cześć.

Rafał: Dzięki.

Krzysztof: I to na tyle z tego, co przygotowałem dla Ciebie na dzisiaj. Technologie głosowe co raz mocniej wchodzą do naszego życia jako alternatywny interfejs. Warto wiedzieć, jakie możliwości nam dają i w którym kierunku będzie zmierzała ta branża. Jak zawsze zapraszam Cię na fanpage na Facebooku. Dzięki za wszystkie wiadomości, które od Was dostaję. Ocena i recenzja jak zawsze mile widziana, pomoże mi to w rozwoju podcastu.

Jeżeli masz jakieś pytania, pisz śmiało na krzysztof@porozmawiajmyoit.pl.

Ja się nazywam Krzysztof Kempiński, a to był odcinek podcastu Porozmawiajmy o IT, o technologiach głosowych.

Zapraszam do kolejnego odcinka już za dwa tygodnie.

Cześć.

To może Cię zainteresować:

POIT #045: Dzielenie się wiedzą w IT

POIT #228: Trendy w rekrutacji IT na rok 2024

POIT #202: Narzędzia programisty: Code review

POIT #058: Specjalista IT zostaje managerem

Tags:

technologie głosowe

Krzysztof Kempiński

krzysztof@porozmawiajmyoit.pl

Jestem ekspertem w branży IT, w której działam od 2005 roku. Zawodowo zajmuję się backendem aplikacji internetowych i zarządzaniem działami IT. Dodatkowo prowadzę podcast, występuję na konferencjach i jestem autorem książki "Marka osobista w branży IT". Moją misją jest inspirowanie ludzi do poszerzania swoich horyzontów poprzez publikowanie wywiadów o trendach, technologiach i zjawiskach występujących w IT.