AI Monitoring &amp; Observability

Open-source LLM observability and evaluation. Trace visualization, embedding analysis, and evals.

Braintrust

Enterprise AI evaluation and observability platform. Prompt playground, scoring, and dataset management.

Datadog LLM Observability

Paid

LLM monitoring within Datadog ecosystem. Trace prompts, tokens, latency alongside infrastructure metrics.

DeepEval

Open-source LLM evaluation framework. 14+ metrics including hallucination, relevancy, and bias detection.

Galileo

LLM evaluation and hallucination detection platform. Automated metrics for RAG quality and safety.

Helicone

Open-source LLM observability proxy. One-line integration, request logging, caching, and rate limiting.

Humanloop

Prompt management and evaluation platform. Version prompts, run evals, and optimize LLM performance.

Langfuse

Open-source LLM observability. Traces, metrics, prompt management, and evaluation. Self-hostable.

LangSmith

LangChain's observability platform. Trace, debug, and evaluate LLM applications with detailed run analytics.

OpenLLMetry

Open-source observability for LLMs based on OpenTelemetry. Works with Datadog, Grafana, Honeycomb.

Opik (Comet)

Open-source LLM evaluation and tracing platform. Track experiments, evaluate outputs, and debug prompts.

Portkey

AI gateway with observability. Load balancing, fallbacks, caching, and guardrails for LLM APIs.

PostHog

Open-source product analytics with AI feature tracking. Session replay, feature flags, A/B testing.

PromptLayer

Prompt engineering platform. Version control, A/B testing, and analytics for prompts across providers.

RAGAS

Evaluation framework for RAG pipelines. Measures faithfulness, relevancy, and context precision.

Sentry

Error tracking with AI/LLM monitoring support. Track exceptions, performance, and LLM-specific errors.

Traceloop

LLM monitoring built on OpenTelemetry. Auto-instrumentation for LangChain, LlamaIndex, and OpenAI SDK.

Weights & Biases

ML experiment tracking and model monitoring. LLM-specific features for prompt tracking and evaluation.