CREWAI_TO_LANGGRAPH — Fases 2–5

Fase 2 — AUTH

~1–2 d

Determinístico · zero LLM

Fase 3 — 4 estados

~2–3 d

ONB · SALES · PLANS · CTRT

Fase 4 — Tools

~3–4 d

+ spike 2 h prévio

Fase 5 — Cleanup

~2–3 d

Re-estimado (era 1 d)

Pré-cond. Fase 2

2026-05-12

≥5 d estável após F1

01 · O Problema

Pipeline imperativo virou plataforma declarativa — mas só em um estado

A Fase 1 provou que o grafo equivale ao caminho imperativo em NEGOTIATION. Os outros sete estados continuam vivendo no domain_agent.process_turn do CrewAI legacy. Migrar é o que destrava a remoção da dependência crewai==1.14.4.

Um estado declarativo, sete imperativos.

Mensagem chega ao handle_negotiation_flow via webhook Twilio.
Se state == NEGOTIATION e flag MIGRATE_NEGOTIATION_TO_LANGGRAPH=true → LangGraph (9 nós).
Para AUTH, ONBOARDING, SALES, PLANS, CONTRACT, CHECKOUT, INGESTION → CrewAI process_turn imperativo.
requirements.txt ainda pinned em crewai>=1.14; superfície CVE + tempo de boot maior.
Telemetria mistura dois modelos (spans manuais + traces CrewAI), tornando dashboards inconsistentes.

Oito estados num grafo único, CrewAI removido.

Roteador determinístico no entry-point escolhe sub-grafo por state.
Cada estado tem grafo próprio reusando funções existentes (pattern Fase 1).
pip uninstall crewai langchain-crewai — libera ~24 deps transitivas.
Spans Langfuse uniformes langgraph.node.* em todos os fluxos.
Refactor sem risco em process_turn: ele desaparece, side-effects ficam fora do grafo (ADR-2).

02 · Topologia-alvo

Sub-grafos por estado, roteados na entrada

Cada fase encapsula um cluster de estados em seu próprio sub-grafo, mantendo o pattern Fase 1: nós são wrappers finos sobre funções existentes; side-effects ficam fora do grafo (ADR-2).

Ctrl/Cmd + scroll para zoom · arraste para mover · duplo clique para fit · ⛶ para abrir em nova aba.

Loading…

Cada sub-grafo herda o boundary da Fase 1: decisão dentro, side-effects fora. O roteador é puramente determinístico — zero LLM, zero overhead.

03 · Fases & Estimativas

Quatro fases · pattern provado em todas

Re-estimativas pós-AUDIT_2026-05-08 destacadas em laranja. Fase 4 ganha um spike prévio; Fase 5 dobrou de 1 dia para 2–3 dias após reconhecer que substituir domain_agent.process_turn é refactor honesto, não pip uninstall.

Fase 2

AUTH

~1–2 dias

Estado determinístico, zero LLM. Ideal para solidificar o pattern do roteador state → sub-graph sem riscos de side-effect ou de prompt drift.

Sub-grafo auth/graph.py
Reuso direto dos handlers de auth_handler.py
Smoke prod: 1 fluxo de OTP completo

Fase 3

ONB · SALES · PLANS · CTRT

~2–3 dias

Quatro estados conversacionais. Domain agents continuam respondendo (wrapper-fino), Sonnet continua sendo o cérebro do follow-up; só a orquestração migra.

4 sub-grafos coexistindo em services/conversation/langgraph/
Reuso de onboarding/handler.py e cia.
Smoke prod: cascade contractor → debtor

Spike 2 h

Fase 4

CHECKOUT + INGESTION

~3–4 dias

Primeiros nós com tools reais (Asaas, Bling/Omie/Sankhya). Spike de 2 h decide a estratégia: chamada direta ou re-decoração via @langchain_core.tools.tool.

Pre-Phase audit: grep -rn "from crewai" utils/
Tool invocation strategy → documentar ADR-7
Smoke prod: 1 PIX gerado + 1 import CSV

Re-estimado

Fase 5

Cleanup CrewAI

~2–3 dias

Substituir process_turn é trabalho real: ele produz um outcome dict completo (intention + next_stage + side_effects + payment_plan + handoff_flags). Apagar a dep é trivial; o refactor não é.

Remover agents/, crew/, crewai_* imports
pip uninstall crewai + ~24 transitivas
Suite full + 24 h soak prod antes de archive

04 · State Schemas

TypedDict por sub-grafo, herdando o pattern da Fase 1

ADR-3 da Fase 1 (TypedDict, não Pydantic) foi validada pelo audit. Cada nova fase replica a estratégia — estados pequenos, opcionais, sem overhead de validação.

Fase 1 — NegotiationState (shipped)

# services/conversation/langgraph/state.py
class NegotiationState(TypedDict, total=False):
    user_input: str
    redacted_input: str
    relevant_memories: List[Dict]
    context: Dict[str, Any]
    state_manager_ref: Any

    # perception
    sentiment: str
    risk_signal: str
    pii_detected: bool

    # cascade
    path_taken: str
    planner_message: Optional[str]
    outcome: Dict[str, Any]
    ai_telemetry: Dict[str, Any]

Fase 2 — AuthState (proposto)

# services/conversation/langgraph/auth/state.py
class AuthState(TypedDict, total=False):
    user_input: str
    context: Dict[str, Any]
    state_manager_ref: Any

    # otp flow
    expected_otp: Optional[str]
    submitted_otp: Optional[str]
    otp_verified: bool
    attempts: int

    # outcome (mesmo shape Fase 1)
    outcome: Dict[str, Any]
    next_state: str  # NEGOTIATION | DONE

05 · Funções-chave

Pontos de extensão por fase

Cada fase abre um sub-grafo novo e adiciona um branch no roteador central. As funções abaixo são os únicos pontos cruzados entre fases — o resto vive isolado em sub-pacotes.

# Roteador determinístico no entry-point.
# Hoje (pós-Fase 1) só NEGOTIATION tem branch; F2-F4 expandem.

def _dispatch_message_to_graph(self, user_input: str) -> Dict:
    from services.conversation.langgraph.runtime import is_langgraph_enabled

    if not is_langgraph_enabled():
        return self._legacy_dispatch(user_input)

    state = self.state
    if state == "NEGOTIATION":        # Fase 1 (shipped)
        from .langgraph.runtime import run_graph
        return run_graph(self, user_input, ...)
    elif state == "AUTH":              # Fase 2 ✦ NEW
        from .langgraph.auth.runtime import run_auth_graph
        return run_auth_graph(self, user_input)
    elif state in {"ONBOARDING", "SALES", "PLANS", "CONTRACT"}:  # F3
        from .langgraph.contractor.runtime import run_contractor_graph
        return run_contractor_graph(self, user_input)
    elif state in {"CHECKOUT", "INGESTION"}:  # Fase 4
        from .langgraph.ops.runtime import run_ops_graph
        return run_ops_graph(self, user_input)

    return self._legacy_dispatch(user_input)  # bypass safety net

Arquitetura aditiva: cada fase adiciona um branch sem tocar nos anteriores. _legacy_dispatch permanece como rede de segurança até Fase 5.

# Pattern Fase 1: nó como wrapper-fino sobre função existente.

def node_check_otp(state: AuthState) -> Dict:
    from services.conversation.auth_handler import verify_otp

    submitted = state.get("user_input", "").strip()
    expected  = state.get("expected_otp")
    verified  = verify_otp(submitted, expected)   # lógica intocada

    return {
        "submitted_otp": submitted,
        "otp_verified": verified,
        "attempts": state.get("attempts", 0) + 1,
    }

def route_after_otp(state: AuthState) -> str:
    if state["otp_verified"]:
        return "transition_to_negotiation"
    if state.get("attempts", 0) >= 3:
        return "escalate_to_handoff"
    return "prompt_retry"

# Decisão a fechar no spike de 2 h pré-Fase 4:
#   Estratégia A (call-direct):
def node_create_pix_charge(state):
    from services.payment.asaas import create_pix
    payment = create_pix(amount=state["amount"], debtor_id=state["debtor_id"])
    return {"payment_id": payment.id, "qr_code": payment.qr_code}

#   Estratégia B (re-decoração @tool):
from langchain_core.tools import tool

@tool
def create_pix_tool(amount: int, debtor_id: str) -> Dict:
    from services.payment.asaas import create_pix
    return create_pix(amount, debtor_id).to_dict()

# O spike decide qual estratégia + adiciona ADR-7 ao DESIGN_F4.

06 · Comandos & Flags

Operacional — deploy, rollback, monitoração

Comando / Flag	Fase	Comportamento
`MIGRATE_NEGOTIATION_TO_LANGGRAPH`	Fase 1 · shipped	Default `false`. Quando `true`, NEGOTIATION roda no LangGraph (verificado em prod 2026-05-07). Rollback validado em ~50 s via `sed + force-recreate`.
`MIGRATE_AUTH_TO_LANGGRAPH`	Fase 2 · proposto	Default `false`. Ativa sub-grafo AUTH no entry-point. Mesma convenção da Fase 1 (ADR-5).
`MIGRATE_CONTRACTOR_TO_LANGGRAPH`	Fase 3 · proposto	Cobre ONBOARDING + SALES + PLANS + CONTRACT em um único toggle.
`MIGRATE_OPS_TO_LANGGRAPH`	Fase 4 · proposto	CHECKOUT + INGESTION. Bloqueia até spike-2h definir tool strategy.
`git rm -r agents/ crew/`	Fase 5 · gated	Após 24 h soak com todas flags `true` em prod sem regressão. Procedimento documentado em `SHIPPED_F5.md` (a criar).
`pip uninstall crewai`	Fase 5 · gated	Remove ~24 deps transitivas. Rebuild Docker libera ~80–120 MB de imagem.

07 · Edge Cases

Cenários que precisam de teste explícito

Cenário	Fase	Comportamento esperado
state == DONE com flag F2 `true`	F2	Roteador cai em `_legacy_dispatch`. Não há sub-grafo para DONE — comportamento idêntico ao baseline.
OTP errado 3×	F2	`route_after_otp` → `escalate_to_handoff` + `state = DONE`. Reuso de `handoff_service`.
Transição AUTH → NEGOTIATION mid-graph	F2 · F3	Sub-grafo AUTH retorna; roteador é re-invocado no próximo turn (next_state já é NEGOTIATION). Sem re-entrada.
Tool externa (Asaas) timeout	F4	Best-effort herdado da Fase 1. Tool wrapper em try/except → outcome com `payment_plan.action=null` + `handoff_flags`.
Import falha pós-cleanup F5	F5	CI deve pegar via `grep -rn "from crewai"` antes do merge. Run extra: `uv pip check`.
Smoke prod F4 sem aprovar spike	F4	Bloqueado: spike de 2 h é gate obrigatório. Sem ADR-7, não há merge.
Múltiplas flags `true` simultâneas	F2-F4	Roteador trata cada estado independente; flags são ortogonais por design (não há flag-master).

08 · Testes

Categorias por fase

Fase	Categoria	Arquivo	Cobertura mínima
F2	Unit · graph	`tests/unit/test_langgraph_auth.py`	OTP correct · OTP errado · 3 tentativas · transição p/ NEGOTIATION · flag off mantém legacy
F2	Equivalência funcional	Mesmo arquivo · `parametrize`	Cada caso testado com flag `off` e `on` — outcomes idênticos.
F3	Unit · 4 sub-grafos	`tests/unit/test_langgraph_contractor.py`	≥3 tests por estado (ONB, SALES, PLANS, CTRT) → mínimo 12 cases.
F3	Integration · cascade	`tests/integration/test_contractor_cascade.py`	Onboarding completo → primeira cobrança gerada (cascade real entre estados).
F4	Unit · tools	`tests/unit/test_langgraph_ops.py`	Tool success · tool timeout · tool malformed response. 3 strategies x 3 cenários.
F4	Smoke · sandbox real	Manual via Twilio Sandbox	1 PIX gerado + 1 import CSV via WhatsApp — observar trace Langfuse + audit MongoDB.
F5	Suite full	`uv run pytest`	403/403 ou superior (baseline shipped 2026-05-07). Zero ImportError, zero `crewai` residual.
F5	Soak prod	24 h em prod sem regressão	Métrica: zero `handoff_active` a mais que baseline; latência p95 ≤ +15%.

09 · Marcos

Cronograma proposto

Pré-condição comum: ≥5 dias estável em prod entre fases. As datas abaixo assumem início imediato após o gate liberar; ajustar conforme ramo paralelo de V2.1.

2026-05-07 · sext

Fase 1 — NEGOTIATION shipped

Subpacote services/conversation/langgraph/ em prod. Flag MIGRATE_NEGOTIATION_TO_LANGGRAPH=false após smoke (rollback drill 50 s validado).
2026-05-12 · ter (≥5 d)

Gate Fase 2 libera

Pré-condição cumprida: 5 dias estáveis pós-Fase 1 + deepeval golden suite verde. Gate operacional para start de F2.
~2026-05-13 / 14 · ~1–2 d

Fase 2 — AUTH

Sub-grafo AUTH. Sem LLM, deve fechar em 1 sessão. MIGRATE_AUTH_TO_LANGGRAPH=true em smoke prod.
~2026-05-19 · seg

Gate Fase 3 libera

5 dias estáveis pós-F2. Pre-Phase audit: grep -rn "process_turn" em ONBOARDING/SALES/PLANS/CONTRACT.
~2026-05-20 / 22 · ~2–3 d

Fase 3 — Estados Contractor

4 sub-grafos. Smoke E2E: contractor novo → subaccount Asaas → primeira cobrança PIX (validação end-to-end com fluxo MULTI_TENANT_ASAAS).
~2026-05-27 · ter

Spike 2 h — Tool Strategy

Decide call-direct vs @tool. Output: ADR-7 anexado a DESIGN_F4. Bloqueia merge da Fase 4.
~2026-05-27 / 31 · ~3–4 d

Fase 4 — CHECKOUT + INGESTION

Primeiros nós com tools reais (Asaas, Bling/Omie/Sankhya). Smoke: 1 PIX + 1 import CSV via WhatsApp.
~2026-06-05 · sex

Gate Fase 5 libera

5 dias estáveis pós-F4. Soak: zero regressão, zero novos handoffs além do baseline.
~2026-06-06 / 09 · ~2–3 d

Fase 5 — Cleanup

Refactor honesto de process_turn. pip uninstall crewai + git rm -r agents/ crew/. requirements.txt sem crewai>=1.14.
~2026-06-10 · seg

Archive — CREWAI_TO_LANGGRAPH completo

SHIPPED_F5.md final + memory entry. V2 plataforma 100% LangGraph.

10 · Notas de Implementação

Avisos críticos · contratos · riscos

Backward compatibility

Cada fase mantém _legacy_dispatch como fallback. Flag false → comportamento idêntico ao baseline pré-fase. Nenhuma fase remove código legacy — só Fase 5 faz cleanup, e mesmo assim só após soak prod.

Crítico — Fase 5 não é trivial

Audit 2026-05-08 re-estimou de 1 d para 2–3 d. Substituir domain_agent.process_turn exige refactor real: ele produz {intention, next_stage, side_effects, payment_plan, handoff_flags}. Ignorar essa nuance → bug latente em side-effects.

Performance · pin hygiene

Considerar pin exato langgraph==1.1.10 (em vez de >=1.1.0,<2.0.0) durante toda a migração F2-F5. Bumps minor não-revisados durante refactor crítico = footgun.

Pattern shipped — reusar

Da Fase 1: (1) TypedDict não Pydantic, (2) side-effects fora do grafo, (3) spans Langfuse manuais (não LangfuseCallbackHandler), (4) wrappers finos sobre funções existentes, (5) flag default false. Audit confirmou todas contra docs LangGraph 1.x.

Pre-Phase 4 audit obrigatório

Antes de começar Fase 4, rodar grep -rn "from crewai" utils/ + grep -rn "import crewai". Se aparecer em paths não esperados → mapear no spike de 2 h. 5 minutos que evitam CI fail.

Deepeval gate — novo

Adicionar gate "deepeval golden suite verde" entre fases ($0.04/run, ~50 s). Complementa o smoke manual. Suite skipa silenciosamente sem ANTHROPIC_API_KEY; em CI use o secret.

11 · Inventário de Arquivos

Mapa de mudanças por fase

Fase 2 — AUTH · ~7 arquivos novos · ~20 LOC modificadas

Arquivo	Tipo	Descrição
`services/conversation/langgraph/auth/__init__.py`	new	Re-export de `build_auth_graph`.
`services/conversation/langgraph/auth/state.py`	new	`AuthState` TypedDict (~30 LOC).
`services/conversation/langgraph/auth/nodes.py`	new	3-4 nós (`node_check_otp`, `node_request_otp`, `route_after_otp`) (~80 LOC).
`services/conversation/langgraph/auth/graph.py`	new	Factory `build_auth_graph()` (~40 LOC).
`services/conversation/langgraph/auth/runtime.py`	new	`run_auth_graph()` orchestra grafo + side effects (~50 LOC).
`services/conversation/state_manager.py`	mod	+ branch `state == AUTH` em `_dispatch_message_to_graph` (+8 LOC).
`tests/unit/test_langgraph_auth.py`	new	≥6 testes parametrizados (~150 LOC).
`CLAUDE.md`	mod	Documentar `MIGRATE_AUTH_TO_LANGGRAPH` em "Variáveis de Ambiente" (+3 LOC).

Fase 3 — ONBOARDING + SALES + PLANS + CONTRACT · ~10 arquivos novos

Arquivo	Tipo	Descrição
`services/conversation/langgraph/contractor/{state,nodes,graph,runtime}.py`	new	4 sub-grafos coexistindo via shared `ContractorState` + dispatch interno por `state.current_stage`.
`services/conversation/langgraph/contractor/onboarding_nodes.py`	new	Wrappers sobre `onboarding/handler.py`.
`services/conversation/langgraph/contractor/sales_nodes.py`	new	Sales agent + Sonnet planner reuso.
`services/conversation/langgraph/contractor/plans_nodes.py`	new	Plans state + Sonnet.
`services/conversation/langgraph/contractor/contract_nodes.py`	new	Asaas subaccount provisioning wrapper.
`tests/unit/test_langgraph_contractor.py`	new	≥12 cases (3 por estado).
`tests/integration/test_contractor_cascade.py`	new	Cascade ONB → SALES → PLANS → CTRT.

Fase 4 — CHECKOUT + INGESTION · spike + ~8 arquivos

Arquivo	Tipo	Descrição
`.claude/sdd/active/CREWAI_TO_LANGGRAPH/SPIKE_TOOL_STRATEGY.md`	new	Output do spike de 2 h. Documenta ADR-7.
`services/conversation/langgraph/ops/{state,nodes,graph,runtime}.py`	new	Sub-grafo CHECKOUT + INGESTION compartilhado.
`services/conversation/langgraph/ops/tools.py`	new	Wrappers sobre `services/payment/asaas.py` + `services/data/provider.py`.
`tests/unit/test_langgraph_ops.py`	new	Mock tool success/timeout/malformed.
`requirements.txt`	mod	Possível: `langchain-anthropic` SE Estratégia B do spike for escolhida.

Fase 5 — Cleanup · remoção massiva

Arquivo / Path	Ação	Notas
`agents/`	delete	Toda a pasta CrewAI agents.
`crew/`	delete	Pasta de inicialização CrewAI.
`services/conversation/state_manager.py`	mod	Remover `_legacy_dispatch` + branch fallback.
`services/conversation/negotiation_flow.py`	mod	Remover early-branch e o caminho imperativo legado (~200 LOC).
`requirements.txt`	mod	Remove `crewai>=1.14.4` + dependências exclusivas.
`CLAUDE.md`	mod	Atualizar diagrama "Arquitetura do Sistema" → LangGraph único.
`.claude/sdd/archive/CREWAI_TO_LANGGRAPH/SHIPPED_F5.md`	new	Closing report da migração completa.