Skip to main content

Command Palette

Search for a command to run...

#observability

Articles tagged with #observability

  1. OTel 戰地筆記:破解 Delta to Cumulative 的兩大夢魘 (ErrOutOfOrder & ErrOlderStart)

    [OTel 深水區] 徹底拆解 deltatocumulative 的兩大夢魘:ErrOlderStart 與 ErrOutOfOrder 接續上一篇我們對 deltatocumulative Processor 的架構剖析,今天我們要進入「深水區」。 在生產環境中,你可能遇過這種情況:Metrics 莫名其妙開始 Drop,去查 deltatocumulative_datapoints 指標時,看到 error 標籤出現了 delta.ErrOutOfOrder 或 delta.ErrOlde...

    Jan 22, 20266 min read98
    OTel 戰地筆記:破解 Delta to Cumulative 的兩大夢魘 (ErrOutOfOrder & ErrOlderStart)
  2. 剖析 OTel Collector Delta To Cumulative Processor

    本文將深入探討 OpenTelemetry Collector Contrib 中的 deltatocumulative Processor。除了基本的配置與使用外,我們將從 源碼層級 (Source Code Level) 分析其內部運作機制、狀態管理策略,並詳細解釋生產環境中常見的異常現象。 1. 簡介 deltatocumulativeprocessor 的核心任務是將 Metrics 的 Temporality 從 Delta (增量) 轉換為 Cumulative (累積)。這是一個 ...

    Jan 21, 20269 min read83
    剖析 OTel Collector Delta To Cumulative Processor
  3. 來自 Grafana 與 OpenTelemetry 的 Logging 最佳實踐

    現代可觀測性中的 Log 思維革命:來自 Grafana 與 OpenTelemetry 的最佳實踐 以下是影片內容的完整解釋與重點摘要: 1. 2025 年 Log 的角色與重要性 Log 是否仍有一席之地? [05:30] 來賓們討論在現代可觀測性Observability)中 Log 的地位。Ed認為 Log 是「唯一真實的可觀測性訊號」,因為它是最容易獲取的(從 Hello World 就開始用),且無法被完全取代(如 process 的 stdout/stderr)。 Zer...

    Dec 19, 20253 min read1.0K
    來自 Grafana 與 OpenTelemetry 的 Logging 最佳實踐
  4. Only 100 Metrics Matter 讀後感

    最近讀了〈Only 100 Metrics Matter〉,有些感想。核心觀點不是「不要蒐集資料」,而是「別讓蒐集到的資料分散了我們的注意力」。 痛點與決策 文章開頭即是**痛點**的描述︰ 蒐集可以很貪心,但注意力需要節制。 全量記錄是為了稀有情況與根因排查;日常決策則需要一組極精煉的「核心指標、核心事件、核心屬性」。 今年才跟朋友說,我想我應該很難一直留意那些 log 跟數量有啥異常,你不如轉成看是百分比還是一個量化的純數吧。 100個核心指標、50個核心事件、150個核心屬性,就...

    Oct 25, 20253 min read177
    Only 100 Metrics Matter 讀後感
  5. Chaos for Docker - Pumba(a?)

    Chaos Engineering 「混沌不是深淵,而是發現系統韌性的鏡子」 混沌工程是什麼,不是什麼? 最常見的誤解是混沌工程只是隨機地破壞營運環境中的事物。 只要可以幫助我們確信系統可以抵禦突發事件的方法其實都可以稱為混沌工程。混沌工程主要透過實驗性的方法,從而建立對系統抵禦營運環境中突發事件能力信心的工程。換句話說,混沌工程是一種透過主動注入故障來驗證系統韌性的方法,目標是在真實故障發生前暴露系統脆弱性。 混沌工程 v.s. 故障演練 v.s. 測試 的差別 混沌工程實驗聽起來與另外...

    Feb 21, 20255 min read694
    Chaos for Docker - Pumba(a?)