„Jeszcze jedna wiadomość i skrzynka odbiorcza eksploduje”. Czy kiedykolwiek miałeś podobną myśl? Znalazłeś się w sytuacji, w której przeczytanie wszystkich przychodzących wiadomości e-mail jest fizycznie niemożliwe dla człowieka? Czy możemy po prostu zrzucić winę na Raya Tomlinsona za wysłanie pierwszej wiadomości w 1971 roku?
Prywatnie to ból głowy, zawodowo – realny wpływ na biznes. Przyczyna leży w naszej naturze – komunikujemy się za pomocą języka mówionego lub pisanego (także migowego), a o ludziach można powiedzieć jedno – zmiana jest trudna.

Czy jest inny sposób? Czytaj dalej.
Dlaczego jest to problem biznesowy?
Nic nie dociera lepiej niż przykład. Przywitaj się z Johnem Smithem, swoim najwierniejszym mailowym przyjacielem:

Brzmi to jak proste pięciominutowe zadanie, a utrzymywanie dobrych relacji biznesowych z Johnem jest ważne.
Teraz pomnóż pana Smitha przez całą bazę klientów i każdy proces kontaktu z klientem (w tym wewnętrzne, takie jak transakcje między firmami). Nagle wracamy do poprzedniego punktu – skrzynka odbiorcza eksploduje. Policzmy: około 80 takich „szybkich”, 5-minutowych zapytań biznesowych może wypełnić cały dzień pracy (1 etat, zakładając 6,5 godziny czasu produktywnego).
Po latach komunikacji transakcyjnej osiągnęliśmy punkt, w którym powszechne i globalnie akceptowane jest otrzymywanie nieustrukturyzowanych informacji jako danych wejściowych, jednocześnie polegając na systemach, które wymagają ściśle ustrukturyzowanych danych.
Zgadnij, kto przekształca te dane.
Możesz najpierw spróbować to naprawić i szczerze do tego zachęcam. Najczęściej jednak natrafisz na mur – strukturę organizacyjną, procedury, umowy SLA lub klasyczne „zawsze robiliśmy to w ten sposób”.
Od czasu do czasu można zauważyć łódź ratunkową w postaci ustrukturyzowanych danych wejściowych, takich jak formularze lub systemy biletowe. Z naszego doświadczenia wynika jednak, że są one rzadkością – a nawet jeśli istnieją, często przegrywają bitwę ze starym, dobrym, niezawodnym e-mailem lub zaczynają go przypominać, oferując pola tekstowe.
Jak toczyć nieuczciwą walkę
Zanim wybierzemy naszą broń, ustalmy pole bitwy. Zagłębiamy się w przetwarzanie języka naturalnego (NLP) – dziedzinę sztucznej inteligencji (AI) i rozległy, fascynujący temat, który warto zbadać poza tym artykułem. Obecnie przeżywa renesans, napędzany rozwojem dużych modeli językowych (takich jak ChatGPT), ale zajęło nam dużo czasu, aby dotrzeć do miejsca, w którym jesteśmy teraz.
Wracając do naszego przykładu, zdefiniujmy nasze cele. Mówiąc prościej, chcemy:
- Dowiedz się, czego chce John – zrozum intencje jego wiadomości.
- Wyodrębnij ważne fragmenty – wyciągnij kluczowe punkty danych z tekstu.
Dlaczego właśnie te dwa? Ponieważ tak właśnie działają procesy (biznesowe): pobierasz dane wejściowe, przetwarzasz je przez szereg działań i generujesz dane wyjściowe. Rozpoznanie intencji (etykieta wiadomości) pomaga skierować ją do właściwego procesu ze zdefiniowanym wynikiem, podczas gdy wyodrębnione dane służą jako dane wejściowe. W tym przypadku moglibyśmy zdefiniować nasz proces jako „Zapytanie o zamówienie”, w którym numer PO działa jako dane wejściowe, a wynikiem jest aktualizacja statusu zamówienia w odpowiedzi.

Jeśli masz ochotę na głębsze zanurzenie, te dwa cele są zgodne z dobrze znanymi zadaniami NLP: klasyfikacją (wykrywanie intencji) i rozpoznawaniem nazwanych jednostek (NER) (ekstrakcja danych). Istnieje wiele sposobów radzenia sobie z nimi, każdy z tuzinem różnych bibliotek, narzędzi lub (ostatnio) LLM do wyboru. Bardziej tradycyjne podejście może opierać się na wyrażeniach regularnych (warto sprawdzić!), które sprawdzają się w prostych przypadkach. Mamy jednak do czynienia z różnorodnymi wiadomościami i wolumenami na skalę korporacyjną – pomyśl o 5-15 tys. e-maili miesięcznie – więc potrzebujemy czegoś solidniejszego.
Celem jest radzenie sobie z tym na dużą skalę, w powtarzalny sposób, tak aby pracownicy kontaktujący się z klientami mogli angażować się w ważne fragmenty komunikacji, w których sztuczna inteligencja zawodzi, a ludzka wiedza jest nadal niezbędna lub tam, gdzie ma to największe znaczenie: wzmacnianie relacji z klientami, pozyskiwanie nowych klientów i zatrzymywanie tych, którzy są zagrożeni odejściem (churn). Niektórzy spekulują, że w niedalekiej przyszłości interakcja z człowiekiem stanie się usługą premium.
Do wyboru jest wiele opcji, ale my zajmiemy się UiPath Communications Mining.
Przepis podstawowy
Tytułem wstępu, Communications Mining to oparta na chmurze usługa AI/Machine Learning (ML) w ekosystemie UiPath, stworzona w celu automatycznego rozumienia i przetwarzania danych w języku naturalnym. Na platformie jest wiele do odkrycia. Zajmiemy się podstawowymi informacjami, ale jeśli chcesz dowiedzieć się więcej, polecam zapoznać się z oficjalną dokumentacją i kursami UiPath Academy.
Większość cykli życia ML składa się z kilku kluczowych etapów: planowania, szkolenia i wdrożenia – dokładnie tak podejdziemy do tego tematu.
Planowanie
Komunikacja jest nieunikniona w każdej firmie – prawie każdy proces wymaga rozmowy na pewnym etapie. Zamiast jednak zajmować się wszystkim naraz, zacznij od zadania sobie kilku kluczowych pytań:
- Gdzie komunikacja jest nieodłączną częścią procesu, np. służy jako wejście/wyjście dla całego przepływu pracy lub poszczególnych działań?
- Jakie kanały komunikacji są używane w organizacji: e-maile, czaty, CRM, systemy biletowe, aplikacje do współpracy itp. (źródła danych)
- Kto obsługuje duże ilości wiadomości? Które działy lub zespoły są najbardziej zaangażowane?
- Czy w komunikacji biznesowej występują powtarzające się wzorce lub ustrukturyzowane elementy?
I najważniejsze, często zapominane – po co w ogóle to robić? Czy celem jest automatyzacja, analityka, czy jedno i drugie? Jakie wskaźniki KPI definiują sukces? Samo stwierdzenie „to działa” nie wystarczy w przypadku rozwiązań opartych na sztucznej inteligencji – więcej na ten temat później.
Kontynuujmy orbitowanie wokół naszego przykładu: Zespół Przetwarzania Zamówień obsługuje 5000 e-maili miesięcznie, z których większość jest podobna do wiadomości Johna – nowe zamówienia, modyfikacje, anulacje i zapytania. Zadawanie właściwych pytań i analizowanie procesów w zakresie poprowadzi nas w kierunku zdefiniowania taksonomii dla naszego modelu.

Taksonomia jest hierarchiczną strukturą intencji/kategorii (etykiet), które mogą być zagnieżdżone i powiązanych z nimi punktów danych. Niektóre pola są bezpośrednio powiązane z konkretnymi etykietami (pola ekstrakcji), podczas gdy inne mogą pojawiać się w każdej wiadomości (pola ogólne). Dobrze zaprojektowana taksonomia powinna dokładnie odzwierciedlać rzeczywiste wzorce komunikacji, ponieważ służy jako podstawa do szkolenia i stosowania modelu.
Chociaż taksonomię można modyfikować, zmiany wiążą się z konsekwencjami – dostosowania mogą wydłużyć czas szkolenia, a niektóre zmiany są nieodwracalne.
Szkolenie
Zasadniczo każde szkolenie ML polega na dostarczeniu mu wystarczającej liczby przykładów do „nauki”. Pod maską sztuczna inteligencja wykorzystuje techniki matematyczne i statystyczne do wykrywania wzorców i relacji w danych – co pozwala jej przewidywać nowe, niewidoczne przypadki.

Ile przykładów wystarczy? Nie ma uniwersalnej odpowiedzi, ale oto kilka wskazówek:
- Ogólnie rzecz biorąc, więcej znaczy lepiej. Zestaw treningowy powinien jak najdokładniej odzwierciedlać rzeczywiste dane – zmniejszając losowość i poprawiając niezawodność. W przypadku Proof-of-Concept w Communications Mining należy spodziewać się dostarczenia co najmniej 10 000 wiadomości; w przypadku konfiguracji klasy produkcyjnej należy dążyć do 60 000+.
- Uwzględnianie sezonowości. Uwzględnij w swoim zbiorze danych zmiany, takie jak miesięczne szczyty, spowolnienia pod koniec roku lub inne cykliczne trendy.
- Zrównoważyć zestaw danych. Idealnie byłoby, gdyby każda kategoria (etykieta) miała taką samą liczbę przykładów. Podczas gdy rzeczywiste dane biznesowe rzadko pasują do tego ideału, dołóż wszelkich starań, aby zminimalizować duże nierówności.
Budowanie i szkolenie modelu uczenia maszynowego zazwyczaj wymaga umiejętności programistycznych, tworząc wysoką barierę wejścia. Na szczęście Communications Mining pozwala przejść przez cały proces bez pisania ani jednej linii kodu (jest to opcjonalne). Dane komunikacyjne można przesyłać za pośrednictwem pliku CSV (Comma Separated Values) lub wstępnie zbudowanych integracji z Microsoft Exchange Server lub Salesforce.

Szkolenie jest bardzo łatwe i przyjazne dla użytkownika, prawie jak kolorowanka. Wystarczy kilka kliknięć, aby użytkownik biznesowy (zazwyczaj ekspert merytoryczny) przypisał odpowiednie etykiety (jedną lub wiele) i podświetlił odpowiednie punkty danych (pola) w tekście wiadomości.

To wszystko. Platforma automatycznie wykrywa zmiany i rozpoczyna szkolenie. Powtarzaj tę czynność, dopóki nie dostarczysz wystarczającej liczby przykładów. Ilu? Zgadłeś – tutaj również nie ma uniwersalnej odpowiedzi, ale Communications Mining oferuje tryb szkolenia z przewodnikiem. Zapewnia on jasne, pouczające informacje zwrotne, które pomagają w ustaleniu wymiernych celów. Zasadą jest maksymalizacja wydajności modelu przy jednoczesnym zminimalizowaniu czasu spędzonego na szkoleniu (pracy, którą trzeba włożyć).

Jak wspomniano wcześniej, efektywność operacyjna automatyzacji opartej na sztucznej inteligencji jest zróżnicowana. W klasycznej automatyzacji, takiej jak Robotic Process Automation (RPA), definiujesz ścisłe wymagania, a bot podąża zaprogramowaną ścieżką, obsługując wyjątki w przewidywalny, oparty na regułach sposób. W scenariuszach uczenia maszynowego trzeba zmierzyć się z pewnym poziomem niepewności i zaakceptować go.

Metryki uczenia maszynowego to szeroki temat wykraczający poza zakres tego artykułu. Na szczęście interfejs Communications Mining przedstawia kluczowe informacje w intuicyjny, łatwy do zrozumienia sposób, oferując jednocześnie wystarczający poziom kontroli. Będziemy jednak musieli omówić jedną istotną koncepcję zaufania (wartości), która prowadzi nas do następnego rozdziału.

Wdrożenie
Zbierzmy wszystko razem. Nasz zakres i cele są teraz odzwierciedlone w taksonomii i zdecydowaliśmy, że szkolenie modelu zostało zakończone – przynajmniej na razie. Czas, aby sztuczna inteligencja wykonała ciężką pracę.
Kierujemy oryginalną wiadomość e-mail Johna do Communications Mining, a w zamian otrzymujemy prognozę modelu dla tej wiadomości:

Platforma zapewnia dwa kluczowe elementy automatyzacji, o których mówiliśmy:
- Wywnioskowane etykiety (jedna lub wiele), które określają, które procesy mają zostać uruchomione.
- Wyodrębnione pola, które służą jako ustrukturyzowane dane wejściowe wymagane dla tego procesu.
Zauważ, że każda prognoza ma wartość zaufania w zakresie od 0% do 100% (dotyczy to również pól ekstrakcji, choć nie jest to widoczne w tym widoku). Wartość ta reprezentuje stopień pewności modelu – w oparciu o jego szkolenie – że określona etykieta ma zastosowanie do tej wiadomości. Do nas należy decyzja, co zrobić z tymi informacjami. Dobrym punktem wyjścia jest ustawienie wartości progowej jako filtra odcinającego. Zanim wyciągniemy dalsze wnioski, przeanalizujmy kilka hipotetycznych scenariuszy:
- Happy Path: model przewiduje „Order Information Request > Delivery Status” z 74% pewnością, przekraczając próg 70%. Numer PO jest również wyodrębniany z wysokim poziomem ufności. Żądanie jest kierowane do automatyzacji, która wysyła zapytanie do systemu ERP i zwraca status dostawy. John otrzymuje automatyczną wiadomość e-mail z żądanymi informacjami.
- Przypadek graniczny: tym razem 74% pewności nie wystarczy, ponieważ nasz próg jest ustawiony na 80%. Pozwalamy pracownikowi przetworzyć sprawę w pełni ręcznie lub wdrażamy mechanizm human-in-the-loop, który zażąda ludzkiej walidacji przed wykonaniem procesu.
- Niepożądany wynik: model błędnie klasyfikuje żądanie jako „Anulowanie zamówienia”, a jego zaufanie przekracza próg. Kolejna automatyzacja anuluje zamówienie w systemie ERP i powiadamia Johna, który jest teraz zdezorientowany, dlaczego jego żądanie spowodowało anulowanie zamówienia.
Powyższe scenariusze są uproszczone (a trzeci jest przesadzony), ale podkreślają wielostronny charakter automatyzacji opartej na sztucznej inteligencji. Dlatego tak ważne jest dokładne przeanalizowanie procesów i oczekiwanych rezultatów przed ich wdrożeniem.
Działania wysokiego ryzyka, takie jak anulowanie zamówienia, powinny mieć wyższe progi zaufania, dodatkowe kontrole oparte na regułach, a nawet obowiązkową weryfikację przez człowieka. To hybrydowe podejście może nie być tak szybkie, jak w pełni autonomiczny system, ale zapewnia, że interwencja człowieka ogranicza się do przeglądu wyjątków, podczas gdy 90-99% przypadków przebiega automatycznie.
Wykorzystaj to, co najlepsze z obu światów
Kolejną ważną zaletą Communications Mining są możliwości raportowania. Wyobraź sobie, że jesteś w stanie przeanalizować 60 000 e-maili z całego roku i odkryć takie fakty jak:
- 10 najpopularniejszych kategorii zgłoszeń.
- Szczyt zapytań o status dostawy przypada na grudzień.
- John Smith często zamawia produkty, które wkrótce zostaną wycofane – to doskonała okazja, aby zaoferować mu alternatywę.
To tylko proste przykłady nieskończonych możliwości analitycznych ukrytych w komunikacji korporacyjnej, która nie jest już tylko gigabajtami nieustrukturyzowanych danych, ale kopalnią cennych spostrzeżeń czekających na odkrycie.

Wszystko to jest możliwe, ponieważ każda wiadomość przesłana na platformę otrzymuje model predykcji. Po połączeniu metadanych (takich jak adres nadawcy, domena, znacznik czasu itp.) z wnioskowanymi kategoriami i wyodrębnionymi polami, otrzymujemy bardzo potężny zbiór danych. Pojedynczy element może być traktowany jako przykład szkoleniowy lub przypadek do przetworzenia, ale gdy w grę wchodzą duże wolumeny, zagregowane dane komunikacyjne zaczynają opowiadać historie.
Kolejną kluczową informacją ukrytą w danych komunikacyjnych jest zadowolenie klientów. Communications Mining zapewnia wbudowaną analizę sentymentu, automatycznie wykrywając ton lub sentyment (pozytywny lub negatywny) dla każdej wiadomości.
Ponadto platforma umożliwia skonfigurowanie parametru Quality of Service (QoS) opartego na wadze, przypisując każdej etykiecie wynik od -10 do 10 w celu uzyskania głębszego kontekstu. Na przykład „Anulowanie zamówienia” może mieć wynik QoS równy -5, ponieważ utrata zamówienia ma negatywny wpływ na biznes – nawet jeśli sam sentyment wiadomości był pozytywny.

Ponieważ platforma automatycznie ponownie trenuje i przewiduje każdą przesłaną wiadomość, dane komunikacyjne są stale aktualizowane, umożliwiając monitorowanie w czasie rzeczywistym. Możesz nawet ustawić niestandardowe alerty, aby śledzić kluczowe warunki – na przykład, jeśli wynik QoS Johna Smitha spadnie poniżej określonego progu, system może natychmiast wysłać powiadomienia e-mail do jego Key Account Managera.
Co zamierzasz zbudować?
Mam nadzieję, że podobało Ci się to krótkie wprowadzenie do przetwarzania języka naturalnego i UiPath Communications Mining. Ledwo jednak zarysowaliśmy powierzchnię, jest o wiele więcej do odkrycia i nauczenia się, więc zachęcam do wypróbowania rzeczy i pozostania ciekawym. Technologia rozwija się w niewiarygodnym tempie, zmieniając wczorajsze niemożliwe w dzisiejszą rzeczywistość.
Jeśli masz jakieś pytania, skontaktuj się z nami i ciesz się automatyzacją!