Implementace serverless LLM řešení v prostředí retailového bankovnictví s Javou, Cohere modely na AWS

Bankovní sektor stále častěji zavádí inovativní technologie pro zlepšení zákaznické zkušenosti a zefektivnění procesů. Tento článek nastiňuje komplexní framework pro implementaci serverless AI onboardingového řešení s využitím Javy, Cohere modelů a služeb AWS. Řešení využívá pokročilé možnosti LLM (Large Language Model) poskytované řešením Command R+ společnosti Cohere k automatizaci a optimalizaci procesu onboardingu, což zajišťuje škálovatelnost, nákladovou efektivitu a celkovou hospodárnost.

Proces onboardingu v retailovém bankovnictví zahrnuje několik klíčových kroků: identifikaci zákazníka, ověření dokumentů, nastavení účtu a počáteční interakci se zákazníkem. Toto řešení využívá autonomní AI agenty, implementované a orchestrované prostřednictvím serverless služeb AWS.

Přehled řešení

Klíčové komponenty

Uživatelské rozhraní: Webová a mobilní aplikace, která komunikuje se zákazníky. (AWS Amplify druhé generace)
API Gateway: Spravuje a směruje požadavky API na backendové služby.
Lambda funkce: Zpracovávají úlohy preprocessingu, orchestrace a postprocessingu.
SageMaker Serverless Inference: Provádí LLM inferenční úlohy pomocí modelů Cohere Command R+ a dalších.
Step Functions: Slouží k orchestraci procesů onboardingu.
EventBridge: Reaguje na triggery událostí.
DynamoDB: Udržuje stav aplikací a metadata.
S3: Uchovává dokumenty a další data.
Cognito: Zajišťuje autentizaci a autorizaci uživatelů.
CloudWatch: Hlídá a zaznamenává výkon aplikací.
X-Ray: Umožňuje trasovat a debugovat požadavky a jejich průběh.

Podrobnější popis architektury

1. Uživatelské rozhraní

Je vytvořeno pomocí moderních webových nebo mobilních frameworků. Poskytuje uživatelům formuláře pro zadávání údajů a nahrávání potřebných dokumentů. Tato data jsou pak odesílána do backendových služeb prostřednictvím API Gateway.

2. API Gateway

Slouží jako vstupní bod pro všechny aplikační požadavky. Přesměrovává požadavky na příslušné Lambda funkce k dalšímu zpracování.

3. Lambda funkce

Zpracovává základní logiku procesu onboardingu:

Preprocessing Lambda: Ověřuje a předzpracovává příchozí data a zajišťuje, aby byla ve správném formátu pro další kroky.
Orchestrační lambda: Spravuje stav procesu onboardingu a koordinuje činnost různých autonomních agentů.
Postprocessing Lambda: Formátuje a odesílá konečnou odpověď zpět do uživatelského rozhraní.

Javové serverless kontejnery:

AWS Serverless Java Container: Tato knihovna usnadňuje spouštění Java aplikací napsaných pomocí frameworků, jako je Spring, Spring Boot nebo JAX-RS/Jersey, v prostředí AWS Lambda. Kontejner poskytuje logiku adaptéru pro minimalizaci potřebných úprav kódu tím, že překládá příchozí události do specifikace Java Servlet, takže stávající Java frameworky mohou pracovat jako dříve.
- Nastavení: Přidejte závislost AWS Serverless Java do build souboru Maven nebo Gradle. Nakonfigurujte aplikaci tak, aby nezahrnovala embedované servery, jako je Tomcat, protože o směrování požadavků se bude starat AWS Lambda.
- Konfigurace handleru: Použijte SpringDelegatingLambdaContainerHandler nebo implementujte vlastní handler pro delegování požadavků na AWS Serverless Java Container.

Podpora Spring Boot:

Spring Boot: AWS Lambda podporuje spouštění aplikací Spring Boot s využitím AWS Serverless Java Container. Díky tomu mohou aplikace Spring Boot běžet jako serverless kontejner s minimálními úpravami.
- Konfigurace: Nastavte svou Spring Boot aplikaci tak, aby fungovala bez integrovaného hostitelského serveru a používala API Gateway pro zpracování HTTP požadavků.

Podpora řešení Quarkus:

Quarkus: Quarkus je Kubernetes-nativní Java framework přizpůsobený pro GraalVM a OpenJDK HotSpot, což z něj činí vynikající volbu pro serverless prostředí. Aplikace Quarkus lze optimalizovat pro AWS Lambda pomocí rozšíření quarkus-amazon-lambda.
- Výhody: Quarkus poskytuje rychlé spouštění a nízkou paměťovou náročnost, což je ideální pro Lambda funkce, kde je klíčový výkon při studeném startu.
- Nastavení: Přidejte extenzi Quarkus Lambda do svého projektu a nakonfigurujte handler funkce tak, aby používal Quarkus Lambda runtime.

Spring Integration a Apache Camel pro orchestraci workflow:

Spring Integration: Poskytuje framework pro vytváření událostně řízených architektur v rámci Spring aplikací. Lze jej použít k návrhu složitých workflow integrací různých služeb, podobně jako LangChain.
Apache Camel: Výkonný integrační framework, který implementuje enterperise integration patterns (EIP). Camel routy lze definovat pomocí různých doménově specifických jazyků (DSL), včetně jazyků Java a XML.

Srovnání vlastní správy workflow s AWS Step Functions:

AWS Step Functions:
- Výhody:
  - Plně spravovaná služba s automatickým škálováním.
  - Snadná integrace s dalšími službami AWS.
  - Vizuální návrh workflow a možnosti monitorování.
  - Vestavěné mechanismy pro zpracování chyb a opakování.
- Nevýhody:
  - Omezeno na ekosystém AWS.
  - Méně flexibilní pro vysoce customizované integrace ve srovnání se Spring Integration a Apache Camel.

Využitím těchto serverless Java technologií a best practices můžete zajistit, že AI onboardingové řešení bude efektivní, škálovatelné a snadno udržovatelné. Uvedené přístupy minimalizují provozní zátěž a zároveň maximalizují flexibilitu a výkon celého řešení.

4. SageMaker Serverless Inference

SageMaker se používa k obsluze modelů Cohere (i jiných vendorů a custom modelů) Command R+ pro LLM inferenci. Endpointy serverless inference automaticky škálují podle aktuálního zatížení, čímž je zajištěno efektivní využití zdrojů a efektivní hospodaření s finančními prostředky.

Více o modelu Command R+:

Command R+ je vysoce pokročilý jazykový model vyvinutý společností Cohere, který je určen ke zvládání složitých úloh porozumění přirozenému jazyku a jeho generování. Nabízí vynikající schopnosti při generování textu podobného lidskému, sumarizaci informací a extrakci relevantních informací z nestrukturovaných dat.
Klíčové vlastnosti:

Vysoká přesnost: Command R+ poskytuje vysokou přesnost při generování a porozumění textu, takže je vhodný pro kritické podnikové aplikace, jako je například onboarding zákazníků.
Znalost kontextu: Udržuje kontext i při delších konverzacích, čímž zajišťuje souvislou a relevantní interakci.
Přizpůsobitelnost: Model lze doladit pomocí specifických datových sad, aby vyhovoval konkrétním zákaznickým potřebám, což zvyšuje jeho efektivitu v cílených scénářích.
Škálovatelnost: Díky integraci se službou SageMaker lze model Command R+ plynule škálovat, aby zvládal různá zatížení bez snížení výkonu.

LLM proxy vrstva:

Účel: LLM proxy vrstva slouží jako most nebo prostředník mezi vaší Java aplikací a vlastním inferenčním endpointem SageMakeru. Jejím hlavním účelem je zajišťovat komunikaci a integraci mezi oběma komponentami.
Funkčnost: Proxy vrstva přijímá požadavky z vaší Javové aplikace, obvykle ve formátu kompatibilním s Cohere Java SDK nebo vlastním API, které definujete. Poté tyto požadavky předává vlastnímu koncovému bodu inference SageMaker a případně cestou provádí potřebné transformace nebo úpravy.
Zodpovědnosti: Mezi hlavní zodpovědnosti LLM proxy vrstvy patří:
- Předávání požadavků: Předává požadavky přijaté z Java aplikace endpointu SageMakeru a zajišťuje, aby byla data správně formátována a aby bylo provedeno požadované ověření nebo autorizace.
- Zpracování odpovědí: Přijímá odpovědi z endpointu SageMaker a zpracovává je před odesláním zpět do Java aplikace. To může zahrnovat parsování, formátování nebo převod odpovědí do formátu očekávaného aplikací Java.
- Zpracování chyb: Může také zpracovávat chyby nebo výjimky, které se vyskytnou během komunikace mezi aplikací Java a endpointem SageMakeru. To zahrnuje korektní zpracování chyb, centralizované logování a poskytování smysluplných (v očekávaném formátu) odpovědí zpět do Java aplikace.

Výhody LLM Proxy vrstvy:

Abstrakce: Proxy vrstva abstrahuje potenciální složitost interakce s endpointem SageMaker od aplikace Java. Vaše aplikace může zadávat požadavky, jako by komunikovala přímo s rozhraním Cohere API, zatímco proxy server se stará o integraci s rozhraním SageMakeru.
Flexibilita: Díky této vrstvě můžete přizpůsobit komunikaci a integraci mezi Java aplikací a endpointem SageMaker. To umožňuje flexibilitu při zpracování formátů požadavků a odpovědí, mechanismů ověřování a jakýchkoli specifických požadavků vašeho prostředí.
Centralizované řízení: Proxy vrstva poskytuje centralizované řídicí místo pro správu komunikace mezi aplikací Java a endpointem SageMaker event. dalšími poskytovateli služeb. To usnadňuje zavedení další logiky, monitorování nebo bezpečnostních opatření v případě potřeby.

Stručně řečeno, LLM proxy vrstva funguje jako prostředník, který usnadňuje komunikaci a integraci mezi vaší Javovskou aplikací využívající Cohere API a samotným endpointem inference SageMakeru. Zjednodušuje interakci mezi oběma komponentami a poskytuje flexibilitu při řešení specifických požadavků vaší implementace.

5. Step Functions

Step Functions organizují celé workflow onboardingu a zajišťují, aby byly jednotlivé kroky dokončeny v daném pořadí. Tato služba koordinuje provádění Lambda funkcí a dalších AWS služeb.

6. EventBridge

EventBridge obsluhuje událostně řízené procesy prostřednictvím aktivace Lambda funkcí na základě konkrétních událostí, jako je registrace nových zákazníků nebo odeslání dokumentů.

7. DynamoDB

DynamoDB udržuje stav a metadata pro každou relaci onboardingu a poskytuje škálovatelné a spolehlivé databázové NoSQL řešení.

8. S3

S3 slouží k uchovávání dokumentů nahraných zákazníky a dalších relevantních dat. Umožňuje aktivaci Lambda funkcí pro zpracování nových uploadů.

9. Cognito

Cognito zajišťuje správu autentizace a autorizace uživatelů a zajišťuje bezpečný přístup k onboardingovým aplikacím.

10. Monitoring a logy

CloudWatch hlídá výkon aplikace, zatímco X-Ray poskytuje detailní možnosti trasování a ladění.

Související technologie

Vektorové vyhledávání podobnosti:

Účel: Vyhledávání vektorové podobnosti slouží k vyhledávání podobných objektů (záznamů) porovnáváním jejich vektorových reprezentací. To má zásadní význam v aplikacích, jako jsou doporučovací systémy a vyhledávání dokumentů, kde je třeba vyhodnotit sémantickou podobnost.
Implementace: Realizuje se pomocí specializovaných databází, jako je LanceDB, Elasticsearch s možností vektorového vyhledávání, nebo služeb, jako je Amazon OpenSearch. Oracle, MongoDB, PostgreSQL také nabízí svá řešení pro tento úkol.

Retrieval-Augmented Generation (RAG):

Účel: RAG kombinuje možnosti vyhledávání (v externích zdrojích dat na základě konkrétního dotazu uživatele) a generování za účelem zvýšení kvality a odpovědí. Vyhledává relevantní dokumenty ze znalostní báze a využívá je k vygenerování přesných a kontextově obohacených odpovědí.
Implementace: Obvykle zahrnuje integraci databáze s vektorovým vyhledáváním a LLM pro zpracování informací během procesu generování.

LLM znalostní báze pro embedding:

Účel: Ve znalostních bázích jsou uložena strukturovaná a nestrukturovaná data, která lze vložit do LLM a poskytnout tak bohatší a především relevantnější odpovědi. To zajišťuje, že LLM mají přístup k aktuálnějším kontextovým informacím připraveným přímo pro konkrétní případy užití.
Implementace: Znalostní báze lze spravovat pomocí různých typů databází, jako je PostgreSQL, MongoDB, nebo dokonce specializovaných řešení, jako je AWS Neptune pro data založená na grafech.

Diskuse: Vlastní infrastruktura pro AI inferenci vs. serverless řešení

Volba self-managed AI inferenční infrastruktury s sebou nese značnou zátěž v podobě celkových nákladů na vlastnictví (TCO), včetně pořízení hardwaru, údržby, zabezpečení a správy škálovatelnosti. U společností, které se nezabývají pronájmem volných kapacit IT infrastruktury, jako super-scaleři (AWS, Azure, GCP, ...), se tyto náklady mohou promítnout do relativně vysokých nákladů na transakci a často neoptimálního zabezpečení, nízké flexibility infrastruktury a pomalejší aktualizace služeb. Naproti tomu serverless model nabízí flexibilnější a efektivnější přístup. Eliminuje potřebu počátečních kapitálových investic a průběžných provozních nákladů spojených se správou fyzické infrastruktury. Serverless služby se automaticky škálují podle poptávky, což zajišťuje efektivní využití zdrojů. Serverless platformy navíc poskytují integrované funkce pro zajištění bezpečnosti a shody s předpisy, což snižuje zátěž organizace při udržování aktuálních bezpečnostních předpisů. To umožňuje společnostem soustředit se na poskytování inovativních aplikací, aniž by byly zatěžovány složitostí správy infrastruktury.

Výhody orientace na serverless model:

Nákladová efektivita: U serverless modelu platíte pouze za to, co používáte. Tím odpadá nadměrné využívání zdrojů a výrazně se snižují provozní náklady.
Škálovatelnost: Serverless služby jako AWS Lambda a SageMaker serverless inference mohou automaticky škálovat, aby zvládly rostoucí nebo klesající zátěž, a zajistit tak optimální výkon za všech okolností.
Snížení nároků na údržbu: Serverless architektura abstrahuje od správy základní infrastruktury, což umožňuje vývojářům soustředit se na aplikační logiku a inovace spíše než na správu serverů.
Flexibilita: Serverless architektura umožňuje rychlé nasazení a iterace, což usnadňuje postupy kontinuální integrace a kontinuální dodávky (CI/CD).
Zvýšená bezpečnost: Managed services přicházejí s integrovanými bezpečnostními prvky a compliance certifikáty, které zajišťují, že vaše aplikace splňuje oborové normy bez dalších režijních nákladů.

Závěrem

Tato architektura poskytuje škálovatelné, nákladově efektivní a výkonné řešení pro automatizaci procesu onboardingu (nejen jeho) v retailovém bankovnictví pomocí jazyka Java, Cohere SDK a serverless služeb AWS. Využitím autonomních agentů a serverless infrastruktury zajišťuje toto řešení vysokou dostupnost, minimální provozní režii a lepší zákaznickou zkušenost.

Uvedený framework může sloužit jako vodítko pro architekty a Java vývojáře, kteří chtějí implementovat podobné rozsáhlé aplikace orientované na LLM inferenci. Použití Javy v kombinaci s možnostmi AWS a výkonnou LLM inferencí s řešeními Cohere zajišťuje robustní a do budoucna perspektivní volbu.

Architekt

Prohledat tento blog