
Sztuczna inteligencja obiecuje radykalne przekształcenie wielu gałęzi przemysłu, ale stanowi także poważne ryzyko – wiele rzeczy jeszcze nie zostało odkrytych, zważywszy, że technologia dopiero zaczyna być wdrażana.
Mamy do czynienia z wieloma publicznymi i żenującymi przykładami AI (sztucznej inteligencji) gdzie coś poszło nie tak. Tay od Microsoftu przeszedł od niewinnego chatbota do szalejącego rasisty w ciągu zaledwie jednego dnia, zepsuty przez trolle na Twitterze. Dwa lata temu firma Google musiała cenzurować wyszukiwanie w poszukiwaniu słów kluczowych, takich jak “goryl” i “szympans”, ponieważ zapytanie zwracało zdjęcia Afroamerykanów – a problem wciąż nie został w pełni poprawiony w aplikacji Zdjęcia Google.
W miarę, jak firmy coraz częściej będą wykorzystywać sztuczną inteligencję, stawka będzie tylko wyższa.
“Budzimy się spoceni”, mówi Ankur Teredesai, szef AI w KenSci w Seattle, startupie, który stosuje AI do danych opieki zdrowotnej. “Pod koniec dnia mówimy o prawdziwych pacjentach, prawdziwym życiu”.
Platforma AI firmy KenSci wydaje zalecenia dotyczące opieki zdrowotnej dla lekarzy i firm ubezpieczeniowych. Jeśli są błędy w dokumentacji medycznej lub w zestawach treningowych używanych do tworzenia modeli predykcyjnych, konsekwencje mogą być potencjalnie śmiertelne, co rzuca światło na kluczowy czynnik ryzyka implementacji sztucznej inteligencji: jakość twoich praktyk dotyczących danych.
KenSci zajmuje się milionami dokumentacji pacjentów od organizacji partnerskich na całym świecie. Informacje są w różnych językach, standardach i formatach i są zorganizowane wokół różnych schematów klasyfikacji.
Aby rozwiązać ten problem, KenSci używa narzędzi domowych i narzędzi zewnętrznych, a także od partnerskich organizacji opieki zdrowotnej.
“Systemy opieki zdrowotnej zainwestowały wiele wysiłku w tworzenie protokołów, przestrzeganie obowiązujących przepisów, aby zapewnić, że ich zasoby danych są tak czyste, jak to tylko możliwe”, mówi. “Pięć czy dziesięć lat temu był to duży problem: dziś, ze względu na dojrzałość digitalizacji w większości zachodniego świata, Azji i Australii, istnieje znacznie mniej rozbieżne kodowanie.”
Aby złagodzić ryzyko w oparciu o sztuczną inteligencję, KenSci ma trzy dodatkowe warstwy bezpieczeństwa. Po pierwsze, istnieje pierwsza linia obrony przed błędami: lekarze świadczący opiekę.
“Nie wierzymy w sztuczną inteligencję” – mówi Teredesai. “Wierzymy w inteligencję wspomagającą, pozostawiając decyzję o tym, jak działać w rękach dobrze wyszkolonych ekspertów, takich jak lekarze.”
Platforma KenSci tylko formułuje zalecenia – mówi. W większości przypadków te zalecenia nie dotyczą nawet leczenia. “Większość naszej pracy koncentruje się na prognozach kosztów, analizie przepływu pracy i optymalizacji przepływu pracy, wielokrotnie jesteśmy trzy kroki od decyzji klinicznej”.
Eksperci medyczni firmy stanowią drugą linię obrony, analizując nadchodzące dane i granice możliwości ich wykorzystania. Na przykład dane z wyników leczenia pacjentów płci męskiej mogą nie dotyczyć kobiet.
“Mamy rygorystyczny proces gwarantujący, że modele nie zostaną ocenione, jeśli dane bazowe nie są poprawne, aby model mógł zostać oceniony” – mówi.
Wreszcie, istnieją zewnętrzne wzajemne przeglądy wyników modeli KenSci i czynniki, które wpłynęły na decyzje platformy.
“Nasi naukowcy stoją na czele uczciwości i przejrzystości ruchu sztucznej inteligencji” – mówi. “Wierzymy w otwartą publikację, w dystrybucję parametrów, na podstawie których model podejmuje decyzję, tak aby eksperci mogli nie tylko przeglądać wyniki modeli, ale także czynniki i wyniki, które trafiały do tej punktacji. dokłada wszelkich starań, aby platforma KenSci była otwarta, przejrzysta i otwarta na kontrolę. “
Podejście KenSci pokazuje rodzaje procesów, które firmy będą musiały wdrożyć, aby zwiększyć swoją zależność od sztucznej inteligencji.
Tu chodzi o dane
Dziewięćdziesiąt procent sztucznej inteligencji to logistyka danych – mówi JJ Guy, dyrektor ds. Technologii w Jask, AI – opartym na sztucznej inteligencji cyberbezpieczeństwie. Wszystkie najważniejsze postępy w zakresie sztucznej inteligencji są napędzane przez postępy w zestawach danych, mówi.
“Algorytmy są łatwe i interesujące, ponieważ są czyste, proste i dyskretne problemy” – mówi. “Gromadzenie, klasyfikowanie i oznaczanie zestawów danych używanych do szkolenia algorytmów jest trudnym zadaniem – szczególnie w zestawach danych wystarczająco kompleksowych, aby odzwierciedlić rzeczywisty świat.”
Weźmy na przykład aplikacje, które zapewniają szczegółowe wskazówki dojazdu. Są już od dziesięcioleci, mówi, ale ostatnio stały się dobre – z powodu lepszych danych.
“Google sfinansował flotę samochodów, które jeździły i cyfrowo mapowały każdą drogę w Ameryce” – mówi. “Łączą te dane ze zdjęciami satelitarnymi i innymi źródłami danych, a następnie zatrudniają zespół ludzkich kuratorów ręcznie polerujących dane reprezentujące każdy budynek, skrzyżowania i światła na całym świecie. Ponieważ sztuczna inteligencja jest stosowana do szerszego zakresu problemów, udane podejście mają ci, których dane rozpoznając drogę do sukcesu, nie pochodzą z algorytmów, ale z sporów danych. “
Jednak firmy często nie zdają sobie sprawy z wagi dobrych danych, dopóki nie rozpoczną już swoich projektów sztucznej inteligencji.
“Większość organizacji po prostu nie uznaje tego za problem”, mówi Michele Goetz, analityk w Forrester Research. “Zapytany o spodziewane wyzwania związane z sztuczną inteligencją, na liście znalazły się dobrze dobrane zbiory danych do szkolenia AI.”
Według sondażu przeprowadzonego przez Forrester w ubiegłym roku, tylko 17 procent respondentów twierdzi, że największym wyzwaniem było to, że “nie mieli dobrze dobranej kolekcji danych do szkolenia systemu sztucznej inteligencji”.
“Jednakże, gdy firmy rozpoczynają projekty AI, jest to jeden z największych problemów i barier, które uniemożliwiają przejście od dowodu koncepcji i pilota do systemu produkcyjnego” – mówi.
Jednym z największych problemów jest to, że nie ma wystarczającej ilości danych, albo dane są zablokowane i trudno dostępne, mówi Nick Patience, założyciel i wiceprezes ds. Badań w firmie 451 Research.
“Uczenie maszynowe nie zadziała, jeśli twoje dane są sztywno zasypywane”, mówi. “Jeśli na przykład twoje dane finansowe znajdują się w firmie księgowej, twoje dane HR są jeszcze gdzieś indziej a twoje kontrakty są w repozytorium Documentów i nie zrobiłeś nic, aby spróbować stworzyć połączenia między tymi silosami.”
W tym momencie firma nie jest gotowa na AI, mówi.
“Równie dobrze możesz użyć standardowych narzędzi analitycznych w każdym silosie”, mówi.
Problemy z danymi, które mogą wykoleić sztuczną inteligencję
Nawet jeśli masz dane, nadal możesz napotkać problemy z ich jakością, a także błędy ukryte w twoich zestawach treningowych.
Kilka ostatnich badań pokazało, że popularne zestawy danych wykorzystywane do szkolenia rozpoznawania obrazów AI zawierały uprzedzenia dotyczące płci. Na przykład zdjęcie mężczyzny który gotowuje byłoby błędnie zidentyfikowane jako kobieta, ponieważ w danych szkoleniowych kucharze byli kobietami.
“Bez względu na to, jakie mamy uprzedzenia, jeśli istnieją różne rodzaje dyskryminacji, rasy, płci lub wieku, mogą one znaleźć odzwierciedlenie w danych” – mówi Bruce Molloy, dyrektor generalny SpringBoard.ai
Firmy budujące systemy sztucznej inteligencji muszą sprawdzić, czy dane i algorytmy analizujące dane są zgodne z zasadami, celami i wartościami organizacji.
“Nie możesz outsourcować osądu, etyki, wartości do AI”, mówi.
Może to wynikać z narzędzi analitycznych, które pomagają ludziom zrozumieć, w jaki sposób sztuczna inteligencja podjęła taką decyzję, od wewnętrznych lub zewnętrznych audytorów lub przez komisje przeglądowe, mówi. Zgodność to także problem ze źródłami danych – tylko dlatego, że firma ma dostęp do informacji, nie oznacza, że może jej używać w dowolny sposób. Organizacje już rozpoczęły audyt swoich modeli uczenia maszynowego i przyglądają się danym, które trafiają do tych modeli, mówi David Schubmehl, dyrektor badań poznawczych i sztucznych systemów inteligentnych IDC.
Niezależne firmy audytorskie również zaczynają na to patrzeć, mówi.
“Myślę, że stanie się częścią procesu audytu”, mówi. “Ale jak wszystko inne, jest to wschodząca dziedzina, organizacje wciąż próbują dowiedzieć się, jakie są najlepsze praktyki.”
Do tego czasu mówi, że firmy powoli to robią.
“Myślę, że jesteśmy w początkach, kiedy modele sztucznej inteligencji lub modele uczenia maszynowego dostarczają zaleceń i pomocy wyszkolonym profesjonalistom, a nie wykonują same prace”, mówi. “AI aplikacje trwają dłużej, ponieważ ludzie próbują upewnić się, że dane są poprawne i poprawnie zintegrowane oraz że mają odpowiednie typy danych i odpowiednie zestawy danych.”
Nawet doskonale dokładne dane mogą być problematyczne, mówi Anand Rao, partner i globalny lider AI w PWC. Jeśli, powiedzmy, firma ubezpieczeniowa z siedzibą na Środkowym Zachodzie wykorzysta swoje historyczne dane do szkolenia swoich systemów sztucznej inteligencji, a następnie rozszerzy na Florydę, system nie będzie przydatny do przewidywania ryzyka huraganów.
“Historia jest ważna, dane są ważne” – mówi. “Pytanie brzmi: Gdzie używasz modelu i jak używasz tego modelu?”0
Powstanie fałszywych danych
Tego rodzaju wewnętrzne błędy mogą być trudne do zidentyfikowania, ale przynajmniej nie obejmują źródeł danych aktywnie próbujących zepsuć wyniki. Weźmy na przykład podróbki fałszywych wiadomości w mediach społecznościowych, gdzie problem się pogarsza.
“To wyścig zbrojeń” – mówi Rao.
Firmy zajmujące się mediami społecznościowymi walczą z tym problemem, jednak hakerzy wykorzystują swoją sztuczną inteligencję, by stworzyć boty na tyle inteligentne, by przekazywać je ludziom, czy wpływać na media społecznościowe, czy też przekonywać reklamodawców, że są prawdziwymi konsumentami.
“Już widzimy wpływ”, mówi Will Hayes, dyrektor generalny Lucidworks. “Spójrz na wybory i wzmocnienie komunikacji z botami i innymi manipulatorami.”
Manipulatory te nie zawsze są w Rosji i Chinach.
“Jeśli marka chce wzmocnienia w mediach społecznościowych, a firma marketingowa chce udowodnić, że zwiększyła swój udział w tym, inżynier nie musi myśleć o sposobach manipulowania danymi” – mówi Hayes.
W tym miejscu bierze się pod uwagę znajomość domeny i zdrowy rozsądek.
“Zrozumienie matematyki i wzorców doprowadzi cię tylko do tej pory” – mówi Chris Geiser, dyrektor ds. Technicznych The Garrigan Lyman Group, firmy marketingowej, która pomaga firmom przetwarzać dane z różnych źródeł. “Najważniejszą rzeczą jest zrozumienie wszystkich twoich indywidualnych źródeł danych. Im więcej rozumiesz swoich danych i tego, co próbujesz osiągnąć oraz jakie są kluczowe wskaźniki wydajności, tym bardziej możesz wskazać sobie właściwy kierunek.”
Trianguluj źródła danych
Jeśli firma ma dane pochodzące z wielu źródeł, ważne jest, aby sprawdzić dane z jednego źródła na inne przed zastosowaniem uczenia maszynowego.
Jako jedna z największych firm telekomunikacyjnych na świecie, NTT Group generuje ogromną ilość danych z infrastruktury sieci.
“Wykorzystujemy uczenie maszynowe do analizy danych przepływu sieciowego dla celów bezpieczeństwa” – mówi Kenji Takahashi, światowy wiceprezes ds. Badań bezpieczeństwa w NTT Security. “Naszym nadrzędnym celem jest uzyskanie pełnego zrozumienia złośliwej infrastruktury botnetowej ukrytej w naszej sieci.”
Obecnie firma inwestuje w technologię w celu poprawy jakości danych szkoleniowych do uczenia maszynowego. Aby to zrobić, NTT używa metod “zespołowych”, które biorą ważony głos z wyników analizy danych z różnych źródeł, mówi.
Dane te następnie trafiają do bazy hiperskalowej, która przygotowuje ją jako dane treningowe do uczenia maszynowego.
“Podobnie jak w klasach, katastrofą jest nauczenie się czegoś z podręcznikiem o złej jakości z mnóstwem błędów” – mówi. “Jakość danych treningowych determinuje wydajność systemów uczenia maszynowego.”
Budowanie zespołu i narzędzi do rozwiązania problemu
Według sondażu opublikowanego w styczniu przez Infosys, 49 procent decydentów IT twierdzi, że nie może wdrożyć sztucznej inteligencji, której chcą, ponieważ ich dane nie są gotowe.
“AI staje się podstawą strategii biznesowej, ale zarządzanie danymi pozostaje stałą przeszkodą” – mówi Sudhir Jha, starszy wiceprezes i dyrektor ds. Zarządzania produktami i strategii w Infosys.
Kluczowe znaczenie ma tutaj przywództwo, a dla niektórych organizacji rozpoczynających podróż przez AI, pierwszym krokiem może być wyznaczenie głównego urzędnika ds. Danych, mówi Marc Teerlink, wiceprezes ds. Leonardo i działu AI w SAP, jako firmy, które mają szefa administrator danych lepiej zarządza ich danymi.
“Wrzucaj śmieci, wyrzucaj śmieci” – mówi. “Jakość danych, własność i zarządzanie mają znaczenie.”
Większość firm musi dziś opracować własne technologie do przygotowania danych do wykorzystania w sztucznej inteligencji i systemach uczenia maszynowego. Do tego potrzebni są naukowcy zajmujący się danymi, a jeśli nie masz wewnętrznej siły mózgu, możesz zatrudnić konsultantów do pracy, mówi Rao z PWC.
Niektóre przyszłościowe firmy, takie jak Bluestem Brands, używają sztucznej inteligencji do przetwarzania danych do użytku w innych systemach sztucznej inteligencji. Firma, która ma 13 różnych marek detalicznych, w tym Fingerhut i Bedford Fair, przyjęła to podejście, aby zapewnić, że klienci szukający, powiedzmy, czarnej sukienki powinni uzyskać wszystkie istotne wyniki – niezależnie od tego, czy sprzedawca nazywa kolor “czarnym”, “północ”, “głęboki miraż” lub “ciemny węgiel drzewny”.
“Niekończąca się kreatywność artystów w odniesieniu do odcieni tych samych podstawowych kolorów – nigdy się nie kończy”, mówi dyrektor IT, Jacob Wagner. I to nie tylko kolory. “Ten sam problem istnieje w przypadku każdego atrybutu, który jest przetwarzany i interpretowany przez człowieka” – mówi.
Bluestem zbudował swój system do przygotowywania danych z części, które są łatwo dostępne.
“Technologia wyszukiwania w znacznym stopniu ulega utowarowieniu” – mówi Wagner. “Parsowanie leksykalne, dopasowanie tekstu, cała technologia została skodyfikowana i dopracowana, a algorytmy open source są tak samo skuteczne, jak każdy pakiet zastrzeżony”.
I nie wymagało to naukowców zajmujących się tą tematyką.
“Dzięki utalentowanym inżynierom możesz dowiedzieć się, jak podłączyć go do strumienia danych” – mówi.
Wagner jest wielkim fanem Apache Spark, dużego silnika danych, który może pobierać dane z wielu różnych źródeł i kroić je, oraz Apache Solr, wyszukiwarki open source. Bluestem nie tylko wykorzystuje je po stronie klienta, ale także wewnętrznie, aby pomóc w przepływie prac redakcyjnych.
Firma wykorzystuje również produkty komercyjne, takie jak Lucidworks Fusion, która pozwala użytkownikom biznesowym dostosować sposób wyszukiwania z dodatkową logiką biznesową – powiedzmy, aby kierować zapytania związane z walentynkami do zestawu rekomendacji bez konieczności angażowania IT.
Dzięki odpowiedniej strategii zarządzania danymi, narzędziom i personelowi, możesz znacznie zwiększyć prawdopodobieństwo sukcesu AI.