Build software better, together

comet-ml / opik

Debug, evaluate, and monitor your LLM applications, RAG systems, and agentic workflows with comprehensive tracing, automated evaluations, and production-ready dashboards.

open-source playground evaluation openai hacktoberfest llm prompt-engineering hacktoberfest2025 langchain llmops llama-index llm-evaluation llm-observability

Updated Mar 14, 2026
Python

pydantic / logfire

Sponsor

Star

AI observability platform for production LLM and agent systems.

python ai metrics logging trace openai observability pydantic fastapi opentelemetry ai-tools ai-observability evals llm-observability pydantic-ai agent-observability

Updated Mar 13, 2026
Python

JudgmentLabs / judgeval

Star

The open source post-building layer for agents. Our environment data and evals power agent post-training (RL, SFT) and monitoring.

agent open-source reinforcement-learning openai rl agents llm prompt-engineering langchain llama-index llm-evaluation langgraph llm-observability agentic-ai grpo

Updated Mar 14, 2026
Python

A powerful AI observability framework that provides comprehensive insights into agent interactions across platforms, enabling developers to monitor, analyze, and optimize AI-driven applications with minimal integration effort.

agent security machine-learning ai monitoring cybersecurity observability large-language-models llm agentic llm-tools llm-framework llm-observability agentic-ai

Updated May 14, 2025
Python

radicalbit / radicalbit-ai-monitoring

Star

A comprehensive solution for monitoring your AI models in production

data-science machine-learning ai monitoring artificial-intelligence observability machine-learning-engineering data-drift ai-monitoring ml-observability ai-observability llm-observability

Updated Dec 16, 2025
Python

myscale / myscale-telemetry

Star

Open-source observability for your LLM application.

python monitoring callback langchain llm-observability

Updated Jan 2, 2025
Python

AndrMoura / streamlit-chatbot-analytics

Star

Streamlit-based chatbot leveraging Ollama via LangChain and PostHog-LLM for advanced logging and monitoring

analytics chatbot chatbots chatbot-application streamlit llm langchain ollama llm-ops llama3 llm-observability

Updated May 8, 2024
Python

Rxflex / agenttrace

Sponsor

Star

AgentTrace is an open-source, local-first step debugger for AI agents. It provides a Python SDK for tracing your agent runs and a web UI to inspect spans, tool calls, prompts, and responses as an interactive tree.

react python debugging open-source tracing developer-tools observability ai-agents fastapi llm llm-observability

Updated Mar 8, 2026
Python

matdev83 / llm-accounting

Star

A Python package for tracking and analyzing LLM usage across different models and applications. It is primarily designed as a library for integration into development process of LLM-based agentic workflow tooling, providing robust tracking capabilities.

mlops mlops-workflow llms llm-ops llm-observability agentic-workflow agentic-ai agentic-ai-development

Updated Jul 7, 2025
Python

ambertrace / ambertrace-sdk

Star

open-source ai monitoring tracing developer-tools observability monitoring-tool ai-agents ai-observability llms llm-observability

Updated Mar 12, 2026
Python

sitta07 / RAGScope

Star

A lightweight observability tool for visualizing and comparing RAG retrieval strategies. Features real-time embedding visualization and side-by-side performance metrics.

reranking rag vector-search hybrid-search ai-evaluation llm langchain chromadb retrieval-augmented-generation llama3 llm-observability

Updated Mar 10, 2026
Python

dunetrace / dunetrace

Star

Privacy-safe observability for AI agents at runtime

ai monitoring analytics runtime grafana haystack openai observability ai-agents otel ai-tools llm langchain llama-index crewai llm-observability privacy-safe

Updated Mar 14, 2026
Python

skyline-GTRr32 / OKI-TRACE

Star

OKI TRACE: Local LLM observability. See step-by-step, layer-by-layer what your AI thinks. Logit Lens & Attention for HuggingFace models.

python open-source ai transformers developer-tools attention-mechanism blackbox huggingface ai-tools mechanistic-interpretability local-llm ai-interpretability llm-observability ai-transparency glass-box-ai llm-debugging logit-lens

Updated Feb 14, 2026
Python

alpha-one-index / ai-llmops-index

Sponsor

Star

Comprehensive LLMOps reference index: observability platforms, inference cost intelligence, failure mode taxonomy, stack compatibility matrices, and regulatory compliance mapping for LLMs in production.

Updated Mar 13, 2026
Python

Padraigobrien08 / rag-eval-observe

Star

RAG Eval Observability is a production-ready, open-source platform for building, evaluating, and monitoring Retrieval-Augmented Generation (RAG) systems. It pairs a ChatGPT-style UI with a robust backend for document ingestion, multiple retrieval strategies, offline evaluation, and real-time observability, along with backend CI/CD deployed on Azure

python nlp information-retrieval typescript ai semantic-search observability evaluation-framework reranking rag fastapi vector-search hybrid-search llm retrieval-augmented-generation rag-evaluation llm-observability

Updated Dec 17, 2025
Python

ahmedshahriar / llm-eval-question-taxonomy-verbal-design-protocols

Star

Reproducibility code for “Evaluating the Performance of Large Language Models in Taxonomic Classification of Questions in Verbal Protocols of Design” (AI EDAM submission; under review). [WIP]

python work-in-progress taxonomic-classification opik comet-ml design-research protocol-analysis openai-api llm llm-observability anthropic-api context-engineering

Updated Jan 16, 2026
Python

taka2noda / datadog-llmops-bedrock-python

Star

AWS Bedrock Claude with Datadog LLM Observability agentless mode

python datadog agentless aws-bedrock llm-observability

Updated Feb 20, 2026
Python

Arnav-Ajay / llm-observability-logs

Star

Decision-level observability for LLM pipelines, making system behavior explainable even when no outputs exist.

evaluation system-design ml-infrastructure ai-systems failure-analysis llm-observability ai-architecture rag-systems agentic-systems ai-debugging decision-tracing

Updated Feb 3, 2026
Python

reiidoda / OpenRe

Star

Open-source AI agent evaluation workbench for benchmarking, tracing, optimization, and safety with human approval.

reliability openai benchmark-framework software-testing observability traceability ai-safety human-in-the-loop ai-agents multimodal prompt-engineering ai-governance llm-evaluation llm-observability agent-evaluation agent-benchmarking

Updated Mar 12, 2026
Python

Artificia11nte11igence / Catalyst

Star

Python SDK for Agent AI Observability, Monitoring and Evaluation Framework. Includes features like AI Agent, LLM and tools tracing, debugging multi-agentic system, self-hosted dashboards and advanced analytics with timeline and execution graph view.

open-source sandbox self-hosted artificial-intelligence evaluation-metrics llmops llm-evaluation llm-observability agentic-ai llm-analytics

Updated Feb 19, 2025
Python

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

llm-observability

Here are 34 public repositories matching this topic...

comet-ml / opik

pydantic / logfire

JudgmentLabs / judgeval

cyberark / agentwatch

radicalbit / radicalbit-ai-monitoring

myscale / myscale-telemetry

AndrMoura / streamlit-chatbot-analytics

Rxflex / agenttrace

matdev83 / llm-accounting

ambertrace / ambertrace-sdk

sitta07 / RAGScope

dunetrace / dunetrace

skyline-GTRr32 / OKI-TRACE

alpha-one-index / ai-llmops-index

Padraigobrien08 / rag-eval-observe

ahmedshahriar / llm-eval-question-taxonomy-verbal-design-protocols

taka2noda / datadog-llmops-bedrock-python

Arnav-Ajay / llm-observability-logs

reiidoda / OpenRe

Artificia11nte11igence / Catalyst

Improve this page

Add this topic to your repo