Skip to main content

Reading List About

Archive

Browse all 311 articles organized by date

2026

211 articles

January

29Disaster Recovery Planning: Building Resilient Infrastructure
25Infrastructure Monitoring: Observability for IaC
23FinOps and Cloud Cost Management for Engineering Teams
22Ansible Playbook Optimization: Writing Efficient Playbooks
18Pulumi vs Terraform Deep Dive: Choosing the Right IaC Tool
15Operational Checklist: Kubernetes Secrets and External Vault Integration
14Infrastructure Testing Strategies: Validating Your IaC
11Terraform Modules Best Practices: Building Reusable Infrastructure
7Linux Container Internals: Understanding How Containers Work
4Shell Scripting Best Practices: Writing Maintainable Scripts
3Prompt Engineering for DevOps: Consistency and Safety

February

28End-of-Week Engineering: Why Smart Tech Teams Don’t Ship Major Changes on Friday
27Kubernetes Cost Optimization for Teams: FinOps Tactics That Actually Work
26SRE Error Budgets in Practice: Shipping Fast Without Burning Reliability
25Platform Engineering with Backstage: Build a Useful Developer Portal
24GitHub Actions for Monorepos: Fast CI Without Pipeline Chaos
23Azure DevOps Best Practices in 2026: Build Pipelines You Can Trust
22AI Best Practices in 2026: Shipping Reliable Systems, Not Demo Magic
21AI Best Practices for Engineering Teams: From Prompt Experiments to Platform Discipline
13Kubernetes Networking: Services, Ingress, and Network Policies
5Infrastructure Cost Optimization: Reducing Cloud Spending
1Multi-Cloud Infrastructure: Managing Resources Across Providers

March

31Linux Performance Troubleshooting: A Real Incident Walkthrough
30Prompt Engineering Patterns That Actually Work in Production
29AWS Cost Audit: 7 Things We Found Wasting Money Every Month
28How We Cut Our Docker Image Size by 80% and Why It Matters
27Model Fallback Policies for Customer-Facing AI: The Routing Rules That Kept SLA Intact
26Artifact Promotion Instead of Rebuilds: The Release Control Pattern That Stopped Drift
25RDS Restore Drills for Busy Teams: The Recovery Workflow That Surfaced Real Gaps
24Systemd Drop-In Overrides for Vendor Services: The Supportable Linux Ops Pattern
23Terraform Module Version Pinning: How One Platform Team Stopped Surprise Breakage
22Embedding Model Upgrades Without Search Chaos: A Safer RAG Rollout Pattern
21Multi-Cluster Traffic Routing Strategies: A Pragmatic Rollout Pattern for Growing SaaS Teams
20Terraform State Isolation by Environment: How We Stopped One Change from Hitting Prod
19Prompt Versioning and Regression Testing: How Teams Avoid Silent AI Regressions
18Systemd Service Reliability Patterns: What We Changed After Repeated Restart Loops
17Blue-Green Deployment Guardrails in Kubernetes: Lessons from a Failed Friday Rollout
16Cloud Disaster Recovery Runbook Design: How Small Teams Rehearse Multi-Region Failover
15RAG Retrieval Quality Evaluation: The Checks We Added After Bad Answers Reached Production
14Infrastructure Documentation as Code: How One Platform Team Reduced Audit Fire Drills
13Linux Patch Management for Production Fleets: A Real-World Maintenance Workflow
12AWS Cost Allocation Tags for Shared Platforms: What Finally Worked
11GitHub Actions Monorepo CI: How We Cut Build Times Without Breaking Main
5Ansible and Infrastructure as Code: Idempotency and Best Practices

April

30Postgres Connection Pooling — PgBouncer in Front of RDS
29What Are Embeddings? A Beginner's Guide with Code
29Terraform Tutorial — Your First Infrastructure-as-Code Project
29SSH Tutorial — Keys, Config, and Working Remotely
29Prompt Engineering Basics — From "Help Me" to Working Prompts
29Linux File Permissions — Read, Write, Execute Without Tears
29Kubernetes 101 — Pods, Deployments, and Services Explained
29GitOps Explained — What It Is and Why Teams Adopt It
29Your First CI/CD Pipeline with GitHub Actions
29Docker for Beginners — Build, Run, and Ship Your First Container
29Build Your First RAG App in 100 Lines of Python
29Bash Scripting Tutorial — Write Your First Useful Script
29AWS VPC Explained — Subnets, Route Tables, and the Internet Gateway
29AWS S3 Tutorial — Buckets, Permissions, and Common Pitfalls
29AWS Lambda — Deploy Your First Serverless Function
29Ansible Tutorial — Configure a Server in 30 Minutes
28Feature Flags in Production — Provider Choice and Operational Reality
27Distributed Tracing with OpenTelemetry — What We Ship, What We Skip
26Postgres Autovacuum — Tuning From Production Stalls
25Fine-Tuning vs RAG vs Long-Context: A Decision Framework With Numbers
24Database Connection Pooling at Scale: PgBouncer, RDS Proxy, Application Pool
23Backstage Adoption: From Demo to 80% Service Coverage in 6 Months
22Cloudflare Workers vs Vercel Edge: A Latency-Cost Comparison
21eBPF for SREs: Three Real Diagnoses That Saved Hours
20LLM Output Validation: Schema-First Prompt Engineering Patterns
19Argo Rollouts: Canary Deployments That Caught a $40k Bug
18Pulumi vs Terraform: What 18 Months of Production Taught Us
17GCP Workload Identity Federation: Replacing Service Account Keys
16Linux Memory Management: When OOM Killer Strikes Your K8s Pods
15GitHub Actions Self-Hosted Runners: Why We Switched and What Broke
14Vector Database Selection: Pinecone, pgvector, Qdrant After 6 Months in Production
13Pre-Commit Hooks That Saved Our Repo: 7 Real Examples
12EKS Auto Mode: What Worked, What Broke in Our Migration
11Self-Hosted LLMs vs OpenAI API: A Cost-vs-Latency Analysis After 6 Months
10OpenTelemetry Collector Pipelines: Real Configs That Survived Production
9Blue/Green Deploys for Stateful Services: A Postgres Cutover Story
8systemd Timers vs Cron: When We Switched and What We Learned
7Zero Trust on AWS: Lessons From Implementing IAM Identity Center
6Embedding Quality in RAG: How We Cut Hallucinations by 60%
5Database Migrations Without Downtime: Patterns From Three Real Cutovers
4Monitoring That Actually Helps On-Call: Alerts, Dashboards, and Runbooks
3Secrets Management in Practice: From .env Files to Vault
2Incident Postmortems That Actually Prevent Repeat Failures
1Terraform Modules Done Right: Lessons from Managing 50+ Services

May

31Pipeline Observability — Why CI Failures Don't Trigger Alerts (And Should)
30Terraform Module Versioning and Shared Registries
29LLM Evals That Actually Predict Production Quality
28Burn-Rate Alerting — The SLO Discipline That Prevents Alert Fatigue
27Container Resource Limits — What They Actually Do at the Kernel Level
26Kubernetes Resource Requests — Right-Sizing Without Guessing
25Supply Chain Security — SBOMs, Attestation, and What to Actually Verify
24Edge Databases for Low-Latency Apps — D1, Turso, Neon Serverless
23Multi-Provider LLM Routing — Failover, Cost Routing, and Load Balancing
22Postgres Query Plans — Reading Them and the Indexes We Wish We'd Added Sooner
21Argo Rollouts — Progressive Delivery Beyond Argo CD
20eBPF Tools for Everyday Ops — bpftrace Patterns We Use
19SLI Design — Picking Metrics That Actually Correlate With User Experience
18Cross-Cloud Identity Federation — Patterns That Replaced Our Long-Lived Keys
17Hybrid Search — Combining BM25 and Embeddings for Better RAG
16Handling Vulnerabilities in Production — What We Actually Do
15Proxy vs Reverse Proxy vs Load Balancer — What's Actually Different
14Database Backups — Testing Restores, Not Just Taking Them
13Helm Chart Anti-Patterns We've Stopped Using
12CDN Cache Invalidation — Strategies That Don't Break in Production
11Embeddings Drift Detection — When "Similar Enough" Stops Being Similar
10Job Queues — Sidekiq, Celery, BullMQ Patterns That Hold Up
9systemd Timers vs Cron — What We Learned Switching
8AWS Step Functions for Workflow Orchestration
7LLM Streaming UX — Backpressure, Cancellation, Partial Results
6Internal Developer Platforms — Backstage in Practice
5Postgres Replication Lag — Monitoring and Failover Practice
4Bash One-Liners We Actually Use
3Karpenter — Node Provisioning Patterns at Scale
2AI Agent Tool Design — Boundaries and Confirmations
1Chaos Engineering — What We Actually Run as Game Days

June

30Time-Series Postgres: Declarative Partitioning in Practice
30Argo Rollouts: Canary Analysis That Auto-Aborts on Bad Metrics
30Flux vs Argo CD: Picking a GitOps Engine in 2026
30Hybrid Search for RAG: Combining BM25 and Vectors the Right Way
30systemd Timers vs Cron: Migrating Scheduled Jobs the Right Way
30Vercel Edge Middleware Patterns for Auth and A/B Testing
29Argo CD ApplicationSets: Managing Many Clusters Without Copy-Paste
29Postgres Index Bloat: Detecting and Fixing It Before It Hurts
29RAG Chunking Strategies: Fixed, Semantic, and Recursive Compared
29cgroup v2 Limits: What Actually Constrains Your Containers
29Cloudflare Workers vs AWS Lambda@Edge: Where Each Wins
29Turso vs Cloudflare D1: Choosing an Edge SQLite Database
28Cloud IAM Least-Privilege Without Breaking Everything
27Prompt Caching for Production LLM Apps — Cutting Cost and Latency at the Token Layer
26Linux Memory Pressure — Reading PSI Before the OOM Killer Reads You
25Kubernetes Pod Disruption Budgets — Surviving Node Drains Without an Outage
24Terraform Drift Detection in CI — Catching Out-of-Band Changes Before They Bite
23RAG Retrieval Evaluation — Building an Offline Eval Harness Before You Ship
22Alert on Symptoms, Not Causes — SLO Burn-Rate Alerting in Practice
21Edge Caching with Stale-While-Revalidate — Fast and Fresh at the CDN
20LLM Output Validation — Schema-Constrained Generation in Production
19CI Pipeline Caching That Actually Pays Off
18Observability — Correlating Logs, Metrics, and Traces in Anger
17Multi-Region — Active-Active vs Active-Passive, And What We Actually Run
16RAG vs Fine-Tuning — Picking the Right Tool, Honestly
15Kubernetes NetworkPolicies in Practice
14Database Sharding — The Choices We Wish We'd Made Earlier
13Incident Post-Mortems That Drive Change (Not Theater)
12AWS Reserved Instances vs Savings Plans vs Spot — When Each Fits
11Linux Network Debugging — tcpdump, ss, and eBPF in Anger
10LLM Cost Optimization in Production — What Actually Moves the Bill
9Postgres Logical Replication for Zero-Downtime Major Upgrades
8Kubernetes HPA and VPA — Tuning From Production Pain
7MLOps — Model Registry vs MLflow Tracking, And When You Need Both
6HashiCorp Vault as a Secrets Backend for Kubernetes
5pg_stat_statements — Postgres Query Analysis Without Guessing
4Linux io_uring — Async I/O Patterns We Use
3Caching Patterns — Read-Through, Write-Through, Cache-Aside in Practice
2Kafka Partition Strategies — Scaling Consumers Without Reshuffling Everything
1Agentic Ops — When (and When Not) to Use AI Agents for Incident Response

July

14Detecting and Rotating Leaked Cloud Credentials
14The Edge Computing Playbook — What to Run at the Edge (and What Not To)
13OIDC Federation Beyond GitHub — GitLab, Buildkite, and Generic Providers
13Observability for Edge Functions — Logs, Traces, and Metrics
12Edge Auth — Validating JWTs Without Origin Round-Trips
12Short-Lived Credentials — STS, Dynamic Secrets, and Why Static Keys Die
11Anycast and Geo-Routing — How Requests Reach the Nearest PoP
11mTLS for Service-to-Service Auth — Beyond API Keys
10Kubernetes Workload Identity — Projected Tokens and OIDC to Cloud IAM
10Cloudflare Durable Objects — Stateful Coordination at the Edge
9Azure Workload Identity Federation Without Secrets
9Streaming SSR at the Edge — RSC and HTML Streaming
8Keyless Cloud Authentication — Ending Static Credentials Across AWS, GCP, and Azure
8Edge Runtime Limits — What You Can't Do at the Edge
7Blameless Postmortems: The Template and Facilitation That Works
7On-Call Without Burnout: Rotations, Runbooks, and Escalation
7Feature Flags for Safe Deploys: Decoupling Release From Deploy
7AWS Graviton Migration: What Broke and What We Saved
7External Secrets Operator: One Secrets Workflow Across Clouds
6Token Budgeting for Long-Context Prompts: What to Cut First
6Multi-Provider LLM Gateways: Routing, Fallback, and Cost Control
6Four Signals That Matter: Choosing SLIs Users Actually Feel
6Error Budgets to Roadmap: Turning Reliability Into Prioritization
6Serverless Cold Starts: Measuring and Fixing Them on Lambda
5Streaming LLM Responses: SSE, Backpressure, and Cancellation
5Choosing an Embedding Model: Dimensions, Cost, and MTEB Reality
5GitHub Actions Reusable Workflows: DRY Pipelines at Org Scale
5Multi-Region Failover with Route 53: Health Checks and Gotchas
5Cloudflare R2 vs S3: Egress-Free Object Storage in Practice
4Kubernetes Ingress vs Gateway API: Migrating Without Downtime
4Agent Memory: Short-Term, Long-Term, and When You Need Neither
4NAT Gateway Costs: The Silent Line Item and How to Cut It
4Kustomize Overlays That Scale Across Environments
4Backstage Software Catalog: Getting Adoption Past the Demo
3OIDC Federation for GitHub Actions to AWS: Killing Long-Lived Keys
3Docker Compose in Production: When It Fits and When It Doesn't
3SSH Hardening in 2026: Keys, Certificates, and Bastion Patterns
3Terraform Import at Scale: Bringing Legacy Infra Under Code
3S3 Cost Traps: Storage Classes, Requests, and the Surprise Bill
3Guardrails for Production LLMs: Input and Output Filtering That Holds
2Distroless Docker Images: Smaller, Safer Production Containers
2Postgres Read Replicas: Routing Reads Without Stale-Data Bugs
2Zero-Downtime Postgres Migrations: Expand-Contract in Practice
2Reranking in RAG: When a Cross-Encoder Earns Its Latency
2Zero-Trust Service-to-Service Auth with SPIFFE and SPIRE
2Linux TCP Tuning for High-Throughput Services
1AWS IAM Roles Anywhere: Workloads Outside AWS Without Static Keys
1Debugging Latency with eBPF: bpftrace One-Liners That Find It
1LLM Evals in CI: Catching Prompt Regressions Before They Ship
1Semantic Caching for LLM Apps: Cutting Cost on Repeated Queries
1Multi-Arch Docker Builds with Buildx: One Image, Every Platform
1Hunting Slow Queries with pg_stat_statements

2025

74 articles

February

28AI Agents in DevOps: From Copilots to Autonomous Automation in 2025

March

21Platform Engineering and Internal Developer Platforms in 2025
7How We Stopped Terraform Drift from Surprising On-Call
5Systemd Tricks We Use to Keep Services Boring
4A Pragmatic Multi-Region Strategy for Small Teams
3What We Learned Running Weekly Game Days on Our CI/CD Pipeline
1Real-World RAG Incidents: Lessons from a Production Rollout

April

10Kubernetes Cost Optimization: Rightsizing, Spot, and FinOps

May

26Best Practices: AWS Cost Control with Tagging and Budgets
23Best Practices: Ansible Role Design for Large Teams
21Observability with OpenTelemetry: Traces, Metrics, and Logs
19Best Practices: Terraform State Isolation by Environment
15Best Practices: GitHub Actions Pipeline Reliability
11Best Practices: Docker Image Hardening for Production
7Best Practices: Kubernetes Cluster Upgrade Strategy
1GitOps with Argo CD: Best Practices for 2025

June

12Best Practices: Kernel and Package Patch Management
11Docker Security Best Practices: Images, Runtime, and Supply Chain

July

28Best Practices: Infrastructure Documentation as Code
24Best Practices: Cloud Networking Segmentation Patterns
22Linux Performance Tuning for Containers and Kubernetes Nodes
17Best Practices: Blue-Green Deployment Guardrails
1Terraform Cloud Cost Controls: Budgets, Policies, and Tagging

August

31Multi-Agent AI Systems: Building Collaborative AI Applications
27Prompt Engineering Best Practices: Maximizing LLM Performance
23AI Model Deployment Strategies: From Development to Production
20Model Quantization Techniques: Reducing LLM Size and Cost
16Vector Databases for AI: Comparing Pinecone, Weaviate, and ChromaDB
13Building RAG Applications: A Complete Guide to Retrieval Augmented Generation
12RAG in Production: Reliability, Latency, and Cost for LLM Apps
9Best Practices: AI Inference Cost Optimization

September

28GitOps with ArgoCD: Automating Kubernetes Deployments
25Kubernetes Networking Deep Dive: Understanding Pods, Services, and Ingress
22AWS Lambda and Serverless Best Practices for Production
21Production AI Pipelines: Building End-to-End ML Systems
20Architecture Review: LLM Gateway Design for Multi-Provider Inference
18AI Security and Safety: Protecting Your AI Applications
14Embedding Models Comparison: Choosing the Right Model for Your Use Case
10AI Cost Optimization: Reducing LLM Inference Costs by 80%
7Fine-tuning vs Few-Shot Learning: When to Use Each Approach
3AI Observability and Monitoring: Tracking Model Performance in Production
1Autonomous CI/CD Pipelines: Self-Healing and AI-Assisted Deployments

October

31Canary Releases: Gradual Rollout Strategy
27Blue-Green Deployments: Zero-Downtime Releases
24Log Aggregation Strategies: Centralizing Your Logs
20Infrastructure Monitoring with Prometheus: Complete Setup Guide
16Docker Multi-Stage Builds: Optimizing Image Size
13Kubernetes Backup Strategies: Protecting Your Cluster Data
12MLOps Pipelines: From Experiment to Production Models
9Service Mesh Implementation: Istio vs Linkerd
7Architecture Review: Python Worker Queue Scaling Patterns
6CI/CD Pipeline Optimization: Speeding Up Your Builds
2Container Security Scanning: Protecting Your Docker Images

November

29Cloud Networking Fundamentals: VPCs, Subnets, and Routing
25AWS ECS vs EKS: Choosing the Right Container Platform
22Container Image Scanning in CI and at Runtime
21Cloud Security Best Practices: Securing Your AWS Infrastructure
18Serverless Architecture Patterns: Building Scalable Applications
14Cloud Cost Monitoring: Tracking and Optimizing AWS Spending
11Multi-Region Deployment: Building Resilient Cloud Applications
7AWS Lambda Optimization: Reducing Costs and Improving Performance
3DevOps Metrics and KPIs: Measuring Success
2Multi-Region Resilience: Failover, Data, and DNS

December

31File System Optimization: Improving Disk Performance
27Process Management and Monitoring in Linux
24Linux Security Hardening: Protecting Your System
20Operational Checklist: Systemd Service Reliability Patterns
20Network Configuration and Troubleshooting in Linux
17Linux Performance Tuning: Optimizing System Performance
13Systemd Service Management: Creating and Managing Services
13Systemd and Modern Linux Service Management
9Edge Computing with AWS: CloudFront and Lambda@Edge
6Cloud-Native Databases: Choosing the Right Database for Your Workload
2Disaster Recovery in the Cloud: Backup and Recovery Strategies

2024

22 articles

January

15Orchestrating AI Agents on Kubernetes
10eBPF: The Future of Kernel Observability
8Zero Trust Architecture in Multi-Cloud
5Terraform State Management Strategies
3Building Scalable CI/CD Pipelines with GitHub Actions
1Fine-tuning Llama 3 on Consumer Hardware

February

12Fine-tuning Large Language Models: A Practical Guide
10Infrastructure as Code: Terraform vs Pulumi vs Ansible
7Linux System Monitoring with Prometheus and Grafana
5AWS Cost Optimization: 10 Strategies to Reduce Your Cloud Bill
3Building Production-Ready AI Applications with LangChain and Docker
1Practical Guide: Linux Performance Baseline Methodology
1Kubernetes Autoscaling: HPA vs VPA vs Cluster Autoscaler

March

20Practical Guide: Incident Response for Platform Teams
11Practical Guide: Infrastructure Drift Detection Workflow

June

13Deep Dive: Multi-Cluster Traffic Routing Strategies
2Deep Dive: Model Serving Observability Stack

July

11Deep Dive: SLO-Based Monitoring for APIs
7Deep Dive: Secure Container Supply Chain Controls

August

10Production Playbook: Cloud Disaster Recovery Runbook Design

December

10Field Notes: RAG Retrieval Quality Evaluation
6Field Notes: Prompt Versioning and Regression Testing

2023

4 articles

December

28AWS Cost Optimization Strategies
25Advanced Bash Scripting Techniques
20Docker Multi-Stage Builds for Production
15Infrastructure as Code with Ansible