feat: shard-specific metrics tracking (#3520)

2026-02-16 11:53:10 +00:00 · 2025-07-31 22:53:38 +05:30 · 2025-07-31 22:53:38 +05:30 · c3da29fd63
commit c3da29fd63
parent 5640232085
8 changed files with 99 additions and 9 deletions
--- a/waku/discovery/waku_discv5.nim
+++ b/waku/discovery/waku_discv5.nim
@ -14,7 +14,8 @@ import ../node/peer_manager/peer_manager, ../waku_core, ../waku_enr

 export protocol, waku_enr

-declarePublicGauge waku_discv5_discovered, "number of nodes discovered"
+declarePublicGauge waku_discv5_discovered_per_shard,
+  "number of nodes discovered by each shard", labels = ["shard"]
 declarePublicGauge waku_discv5_errors, "number of waku discv5 errors", ["type"]

 logScope:
@ -231,7 +232,20 @@ proc findRandomPeers*(
  elif wd.predicate.isSome():
    discoveredRecords = discoveredRecords.filter(wd.predicate.get())

-  waku_discv5_discovered.inc(discoveredRecords.len)
+  # Increment metric for each discovered record's shards
+  for record in discoveredRecords:
+    let typedRecord = record.toTyped().valueOr:
+      # If we can't parse the record, skip it
+      waku_discv5_errors.inc(labelValues = ["ParseFailure"])
+      continue
+
+    let relayShards = typedRecord.relaySharding().valueOr:
+      # If no relay sharding info, skip it
+      waku_discv5_errors.inc(labelValues = ["NoShardInfo"])
+      continue
+
+    for shardId in relayShards.shardIds:
+      waku_discv5_discovered_per_shard.inc(labelValues = [$shardId])

  return discoveredRecords

--- a/waku/node/peer_manager/peer_manager.nim
+++ b/waku/node/peer_manager/peer_manager.nim
@ -34,6 +34,8 @@ declarePublicGauge waku_peers_errors, "Number of peer manager errors", ["type"]
 declarePublicGauge waku_connected_peers,
  "Number of physical connections per direction and protocol",
  labels = ["direction", "protocol"]
+declarePublicGauge waku_connected_peers_per_shard,
+  "Number of physical connections per shard", labels = ["shard"]
 declarePublicGauge waku_streams_peers,
  "Number of streams per direction and protocol", labels = ["direction", "protocol"]
 declarePublicGauge waku_peer_store_size, "Number of peers managed by the peer store"
@ -778,6 +780,16 @@ proc logAndMetrics(pm: PeerManager) {.async.} =
        protoStreamsOut.float64, labelValues = [$Direction.Out, proto]
      )

+    for shard in pm.wakuMetadata.shards.items:
+      waku_connected_peers_per_shard.set(0.0, labelValues = [$shard])
+
+    for shard in pm.wakuMetadata.shards.items:
+      let connectedPeers =
+        peerStore.getPeersByShard(uint16(pm.wakuMetadata.clusterId), uint16(shard))
+      waku_connected_peers_per_shard.set(
+        connectedPeers.len.float64, labelValues = [$shard]
+      )
+
 proc getOnlineStateObserver*(pm: PeerManager): OnOnlineStateChange =
  return proc(online: bool) {.gcsafe, raises: [].} =
    pm.online = online
--- a/waku/waku_archive/archive.nim
+++ b/waku/waku_archive/archive.nim
@ -119,6 +119,11 @@ proc handleMessage*(
  let insertDuration = getTime().toUnixFloat() - insertStartTime
  waku_archive_insert_duration_seconds.observe(insertDuration)

+  let shard = RelayShard.parseStaticSharding(pubsubTopic).valueOr:
+    DefaultRelayShard
+
+  waku_archive_messages_per_shard.inc(labelValues = [$shard.shardId])
+
  trace "message archived",
    msg_hash = msgHashHex,
    pubsubTopic = pubsubTopic,
--- a/waku/waku_archive/archive_metrics.nim
+++ b/waku/waku_archive/archive_metrics.nim
@ -3,6 +3,8 @@
 import metrics

 declarePublicGauge waku_archive_messages, "number of historical messages", ["type"]
+declarePublicGauge waku_archive_messages_per_shard,
+  "number of historical messages per shard ", ["shard"]
 declarePublicGauge waku_archive_errors, "number of store protocol errors", ["type"]
 declarePublicGauge waku_archive_queries, "number of store queries received"
 declarePublicHistogram waku_archive_insert_duration_seconds,
--- a/waku/waku_relay/protocol.nim
+++ b/waku/waku_relay/protocol.nim
@ -23,9 +23,31 @@ import
 from ../waku_core/codecs import WakuRelayCodec
 export WakuRelayCodec

+type ShardMetrics = object
+  count: float64
+  sizeSum: float64
+  avgSize: float64
+  maxSize: float64
+
 logScope:
  topics = "waku relay"

+declareCounter waku_relay_network_bytes,
+  "total traffic per topic, distinct gross/net and direction",
+  labels = ["topic", "type", "direction"]
+
+declarePublicGauge(
+  waku_relay_max_msg_bytes_per_shard,
+  "Maximum length of messages seen per shard",
+  labels = ["shard"],
+)
+
+declarePublicGauge(
+  waku_relay_avg_msg_bytes_per_shard,
+  "Average length of messages seen per shard",
+  labels = ["shard"],
+)
+
 # see: https://github.com/libp2p/specs/blob/master/pubsub/gossipsub/gossipsub-v1.1.md#overview-of-new-parameters
 const TopicParameters = TopicParams(
  topicWeight: 1,
@ -58,10 +80,6 @@ const TopicParameters = TopicParams(
  invalidMessageDeliveriesDecay: 0.5,
 )

-declareCounter waku_relay_network_bytes,
-  "total traffic per topic, distinct gross/net and direction",
-  labels = ["topic", "type", "direction"]
-
 # see: https://rfc.vac.dev/spec/29/#gossipsub-v10-parameters
 const GossipsubParameters = GossipSubParams.init(
  pruneBackoff = chronos.minutes(1),
@ -137,6 +155,7 @@ type
    topicsHealth*: Table[string, TopicHealth]
    onTopicHealthChange*: TopicHealthChangeHandler
    topicHealthLoopHandle*: Future[void]
+    msgMetricsPerShard*: Table[string, ShardMetrics]

 # predefinition for more detailed results from publishing new message
 type PublishOutcome* {.pure.} = enum
@ -176,6 +195,7 @@ proc logMessageInfo*(
    onRecv: bool,
 ) =
  let msg_hash = computeMessageHash(topic, msg).to0xHex()
+  let payloadSize = float64(msg.payload.len)

  if onRecv:
    notice "received relay message",
@ -185,7 +205,7 @@ proc logMessageInfo*(
      from_peer_id = remotePeerId,
      topic = topic,
      receivedTime = getNowInNanosecondTime(),
-      payloadSizeBytes = msg.payload.len
+      payloadSizeBytes = payloadSize
  else:
    notice "sent relay message",
      my_peer_id = w.switch.peerInfo.peerId,
@ -194,7 +214,19 @@ proc logMessageInfo*(
      to_peer_id = remotePeerId,
      topic = topic,
      sentTime = getNowInNanosecondTime(),
-      payloadSizeBytes = msg.payload.len
+      payloadSizeBytes = payloadSize
+
+  var shardMetrics = w.msgMetricsPerShard.getOrDefault(topic, ShardMetrics())
+  shardMetrics.count += 1
+  shardMetrics.sizeSum += payloadSize
+  if payloadSize > shardMetrics.maxSize:
+    shardMetrics.maxSize = payloadSize
+  shardMetrics.avgSize = shardMetrics.sizeSum / shardMetrics.count
+  w.msgMetricsPerShard[topic] = shardMetrics
+
+  waku_relay_max_msg_bytes_per_shard.set(shardMetrics.maxSize, labelValues = [topic])
+
+  waku_relay_avg_msg_bytes_per_shard.set(shardMetrics.avgSize, labelValues = [topic])

 proc initRelayObservers(w: WakuRelay) =
  proc decodeRpcMessageInfo(
--- a/waku/waku_rln_relay/protocol_metrics.nim
+++ b/waku/waku_rln_relay/protocol_metrics.nim
@ -17,8 +17,9 @@ func generateBucketsForHistogram*(length: int): seq[float64] =
  return buckets

 declarePublicCounter(
-  waku_rln_messages_total, "number of messages published on the rln content topic"
+  waku_rln_messages_total, "number of messages seen by the rln relay"
 )
+
 declarePublicCounter(waku_rln_spam_messages_total, "number of spam messages detected")
 declarePublicCounter(
  waku_rln_invalid_messages_total, "number of invalid messages detected", ["type"]
--- a/waku/waku_store/client.nim
+++ b/waku/waku_store/client.nim
@ -13,6 +13,7 @@ const DefaultPageSize*: uint = 20
 type WakuStoreClient* = ref object
  peerManager: PeerManager
  rng: ref rand.HmacDrbgContext
+  storeMsgMetricsPerShard*: Table[string, float64]

 proc new*(
    T: type WakuStoreClient, peerManager: PeerManager, rng: ref rand.HmacDrbgContext
@ -46,6 +47,17 @@ proc sendStoreRequest(
    waku_store_errors.inc(labelValues = [NoSuccessStatusCode])
    return err(StoreError.new(res.statusCode, res.statusDesc))

+  if req.pubsubTopic.isSome():
+    let topic = req.pubsubTopic.get()
+    if not self.storeMsgMetricsPerShard.hasKey(topic):
+      self.storeMsgMetricsPerShard[topic] = 0
+    self.storeMsgMetricsPerShard[topic] += float64(req.encode().buffer.len)
+
+    waku_relay_fleet_store_msg_size_bytes.inc(
+      self.storeMsgMetricsPerShard[topic], labelValues = [topic]
+    )
+    waku_relay_fleet_store_msg_count.inc(1.0, labelValues = [topic])
+
  return ok(res)

 proc query*(
--- a/waku/waku_store/protocol_metrics.nim
+++ b/waku/waku_store/protocol_metrics.nim
@ -10,6 +10,18 @@ declarePublicGauge waku_store_queries, "number of store queries received"
 declarePublicGauge waku_store_time_seconds,
  "Time in seconds spent by each store phase", labels = ["phase"]

+declarePublicGauge(
+  waku_relay_fleet_store_msg_size_bytes,
+  "Total size of messages stored by fleet store nodes per shard",
+  labels = ["shard"],
+)
+
+declarePublicGauge(
+  waku_relay_fleet_store_msg_count,
+  "Number of messages stored by fleet store nodes per shard",
+  labels = ["shard"],
+)
+
 # Error types (metric label values)
 const
  DialFailure* = "dial_failure"