linuxfoundation
diff --git a/‎backend/src/osspckgs/migrations/V1780589351__package_criticality_spotlight.sql‎
Lines changed: 24 additions & 0 deletions b/‎backend/src/osspckgs/migrations/V1780589351__package_criticality_spotlight.sql‎
Lines changed: 24 additions & 0 deletions
diff --git a/‎backend/src/osspckgs/migrations/V1780589607__rank_packages_universe_v2.sql‎
Lines changed: 132 additions & 0 deletions b/‎backend/src/osspckgs/migrations/V1780589607__rank_packages_universe_v2.sql‎
Lines changed: 132 additions & 0 deletions
diff --git a/‎docs/adr/0001-oss-packages-design-decisions.md‎
Lines changed: 12 additions & 14 deletions b/‎docs/adr/0001-oss-packages-design-decisions.md‎
Lines changed: 12 additions & 14 deletions
diff --git a/‎services/apps/packages_worker/package.json‎
Lines changed: 13 additions & 7 deletions b/‎services/apps/packages_worker/package.json‎
Lines changed: 13 additions & 7 deletions
diff --git a/‎services/apps/packages_worker/src/bin/criticality-worker.ts‎
Lines changed: 36 additions & 0 deletions b/‎services/apps/packages_worker/src/bin/criticality-worker.ts‎
Lines changed: 36 additions & 0 deletions
diff --git a/‎services/apps/packages_worker/src/criticality/activities.ts‎
Lines changed: 65 additions & 0 deletions b/‎services/apps/packages_worker/src/criticality/activities.ts‎
Lines changed: 65 additions & 0 deletions
@@ -0,0 +1,24 @@
+-- Manual override table for criticality scoring (ADR-0001 §Spotlight overrides).
+-- Packages listed here are forced is_critical = TRUE regardless of computed score.
+-- Applied after ranking inside rank_packages_universe() so overrides survive
+-- every automated re-rank pass.
+--
+-- rationale, added_by, added_at are required — the table must stay auditable.
+-- namespace is nullable: cargo crates have no namespace, Maven artifacts do.
+-- The UNIQUE key uses COALESCE so (ecosystem, NULL namespace, name) is enforced correctly.
+
+CREATE TABLE package_criticality_spotlight (
+    id          bigserial   PRIMARY KEY,
+    ecosystem   text        NOT NULL,
+    namespace   text,
+    name        text        NOT NULL,
+    rationale   text        NOT NULL,
+    added_by    text        NOT NULL,
+    added_at    timestamptz NOT NULL DEFAULT NOW()
+);
+
+-- Functional unique index: COALESCE treats NULL namespace as '' so that
+-- (cargo, NULL, tokio) and (cargo, NULL, serde) are unique but a duplicate
+-- (cargo, NULL, tokio) entry is rejected.
+CREATE UNIQUE INDEX ON package_criticality_spotlight
+    (ecosystem, COALESCE(namespace, ''), name);
@@ -0,0 +1,132 @@
+-- Renames criticality_score → impact on both packages_universe and packages,
+-- and installs rank_packages_universe() with the updated formula.
+--
+-- Formula (ADR-0001 §Criticality scoring methodology):
+--   impact = w_downloads  * pct_rank( LOG(1 + downloads_last_30d)          ) within ecosystem
+--           + w_dep_pkgs  * pct_rank( LOG(1 + dependent_count)             ) within ecosystem
+--           + w_transitive * pct_rank( LOG(1 + transitive_dependent_count) ) within ecosystem
+--
+-- Default weights: 0.25 / 0.25 / 0.50 (sum to 1.0).
+-- All weights and the top-N budget are call-time parameters — tunable without
+-- schema or code changes.
+--
+-- Steps inside the function:
+--   1. Score    — compute impact via weighted PERCENT_RANK()
+--   2. Rank     — ROW_NUMBER() per ecosystem, flag top-N as is_critical
+--   2.5 Spotlight — force is_critical = TRUE for rows in package_criticality_spotlight
+--   3. Propagate — copy impact + is_critical onto the packages table
+
+ALTER TABLE packages_universe
+    RENAME COLUMN criticality_score TO impact;
+
+ALTER TABLE packages
+    RENAME COLUMN criticality_score TO impact;
+
+CREATE OR REPLACE FUNCTION rank_packages_universe(
+    weight_downloads            numeric DEFAULT 0.25,
+    weight_dependent_packages   numeric DEFAULT 0.25,
+    weight_transitive           numeric DEFAULT 0.50,
+    critical_top_n_by_ecosystem jsonb   DEFAULT '{
+        "npm":        210000,
+        "pypi":       140000,
+        "maven":      120000,
+        "nuget":       70000,
+        "packagist":   56000,
+        "go":          42000,
+        "cargo":       28000,
+        "rubygems":    21000,
+        "docker":      13000
+    }'::jsonb
+)
+RETURNS TABLE(scored_rows int, ranked_rows int, propagated_rows int)
+LANGUAGE plpgsql AS $$
+DECLARE
+    n_scored     int;
+    n_ranked     int;
+    n_propagated int;
+BEGIN
+    -- ── Step 1: score ──────────────────────────────────────────────────────────
+    -- last_rank_pass_at updated unconditionally on every pass (schema requirement).
+    WITH percentile_scores AS (
+        SELECT
+            id,
+            (
+              weight_downloads * PERCENT_RANK() OVER (
+                  PARTITION BY ecosystem ORDER BY LOG(1 + COALESCE(downloads_last_30d, 0)))
+
+            + weight_dependent_packages * PERCENT_RANK() OVER (
+                  PARTITION BY ecosystem ORDER BY LOG(1 + COALESCE(dependent_count, 0)))
+
+            + weight_transitive * PERCENT_RANK() OVER (
+                  PARTITION BY ecosystem ORDER BY LOG(1 + COALESCE(transitive_dependent_count, 0)))
+            )::numeric(10, 4) AS new_impact
+        FROM packages_universe
+    )
+    UPDATE packages_universe pu
+       SET impact            = ps.new_impact,
+           last_rank_pass_at = NOW()
+      FROM percentile_scores ps
+     WHERE pu.id = ps.id;
+
+    GET DIAGNOSTICS n_scored = ROW_COUNT;
+
+    -- ── Step 2: rank + flag ────────────────────────────────────────────────────
+    WITH ranked AS (
+        SELECT
+            id, ecosystem,
+            ROW_NUMBER() OVER (
+                PARTITION BY ecosystem
+                ORDER BY impact DESC NULLS LAST, id
+            ) AS r
+        FROM packages_universe
+        WHERE purl IS NOT NULL
+    ),
+    flagged AS (
+        SELECT
+            id, r,
+            COALESCE(
+                r <= (critical_top_n_by_ecosystem ->> ecosystem)::int,
+                FALSE
+            ) AS new_is_critical
+        FROM ranked
+    )
+    UPDATE packages_universe pu
+       SET rank_in_ecosystem = f.r,
+           is_critical       = f.new_is_critical
+      FROM flagged f
+     WHERE pu.id = f.id
+       AND (
+             pu.rank_in_ecosystem IS DISTINCT FROM f.r
+          OR pu.is_critical       IS DISTINCT FROM f.new_is_critical
+       );
+
+    GET DIAGNOSTICS n_ranked = ROW_COUNT;
+
+    -- ── Step 2.5: apply spotlight overrides ───────────────────────────────────
+    -- Force is_critical = TRUE for any row in package_criticality_spotlight,
+    -- regardless of computed score or rank. Runs after Step 2 so overrides
+    -- survive every automated re-rank pass.
+    -- IS NOT DISTINCT FROM handles the NULL namespace case (e.g. cargo crates).
+    UPDATE packages_universe pu
+       SET is_critical = TRUE
+      FROM package_criticality_spotlight s
+     WHERE pu.ecosystem                    = s.ecosystem
+       AND (pu.namespace IS NOT DISTINCT FROM s.namespace)
+       AND pu.name                         = s.name
+       AND pu.is_critical                  = FALSE;
+
+    -- ── Step 3: propagate to packages ─────────────────────────────────────────
+    -- last_rank_pass_at updated unconditionally on every pass (schema requirement).
+    UPDATE packages p
+       SET impact            = pu.impact,
+           is_critical       = pu.is_critical,
+           last_rank_pass_at = NOW()
+      FROM packages_universe pu
+     WHERE p.purl      = pu.purl
+       AND p.ecosystem = pu.ecosystem;
+
+    GET DIAGNOSTICS n_propagated = ROW_COUNT;
+
+    RETURN QUERY SELECT n_scored, n_ranked, n_propagated;
+END;
+$$;
@@ -118,24 +118,22 @@ PageRank centrality is the primary blast-radius signal; transitive dependent cou
 Per-ecosystem percentile-rank of each log-transformed signal, then weighted blend:
 
 ```
-score =  w_downloads   * pct_rank( LN(1 + downloads_last_30d)         )   within ecosystem
-       + w_dep_pkgs    * pct_rank( LN(1 + dependent_packages_count)   )   within ecosystem
-       + w_dep_repos   * pct_rank( LN(1 + dependent_repos_count)      )   within ecosystem
-       + w_transitive  * pct_rank( LN(1 + transitive_dependent_count) )   within ecosystem
-       + w_centrality  * pct_rank( centrality_score                   )   within ecosystem
+impact =  w_downloads   * pct_rank( LOG(1 + downloads_last_30d)         )   within ecosystem
+        + w_dep_pkgs    * pct_rank( LOG(1 + dependent_count)            )   within ecosystem
+        + w_transitive  * pct_rank( LOG(1 + transitive_dependent_count) )   within ecosystem
 ```
 
-Weights sum to 1.0 → score ∈ `[0, 1]`. Centrality skips the `LN()` (PageRank is already in a small bounded range) but still passes through `pct_rank` so every signal lands on the same percentile scale. Starting weight bias: centrality dominant (PageRank is the primary blast-radius signal), transitive count low (kept as a sanity floor — see Inputs note on double-counting), direct dependents and downloads balanced as secondary popularity signals. All weights are call-time numeric parameters to `rank_packages_universe()` — tunable without schema or code changes.
+Weights sum to 1.0 → impact ∈ `[0, 1]`. `dependent_count` is direct dependent packages only; `transitive_dependent_count` is indirect dependents only. All weights are call-time numeric parameters to `rank_packages_universe()` — tunable without schema or code changes.
 
-**Suggested starting weights** (use as the first call, then iterate):
+`centrality_score` (PageRank) is computed and stored on `packages_universe` by the criticality worker and will be added to the formula if needed.
 
-| Weight          | Value | Signal               | Rationale                                              |
-| --------------- | ----- | -------------------- | ------------------------------------------------------ |
-| `w_centrality`  | 0.40  | PageRank             | Primary blast-radius signal                            |
-| `w_transitive`  | 0.10  | Transitive dependents | Sanity floor; low to avoid double-counting centrality  |
-| `w_dep_pkgs`    | 0.20  | Direct dependent packages | Popularity within the package graph                |
-| `w_dep_repos`   | 0.15  | Direct dependent repos | Popularity across consumer codebases                  |
-| `w_downloads`   | 0.15  | 30-day downloads     | Adoption signal, lighter weight (noisy for new packages) |
+**Current weights** (defaults in `rank_packages_universe()`, iterate once the ranked list is observable):
+
+| Weight          | Value | Signal                      | Rationale                                                            |
+| --------------- | ----- | --------------------------- | -------------------------------------------------------------------- |
+| `w_transitive`  | 0.50  | Indirect dependent packages | Primary blast-radius signal — captures packages invisible to direct counts |
+| `w_dep_pkgs`    | 0.25  | Direct dependent packages   | Popularity within the package graph                                  |
+| `w_downloads`   | 0.25  | 30-day downloads            | Adoption signal, balanced with dependency reach                      |
 
 These are a starting point, not a recommendation we've validated. They will be revised once the first ranked list is observable and stakeholders review which packages land in / near Tier 1 — particularly for smaller ecosystems where the percentile distribution is less stable.
 
 
@@ -2,18 +2,24 @@
   "name": "@crowd/packages-worker",
   "private": true,
   "scripts": {
+    "start:packages-worker": "CROWD_TEMPORAL_TASKQUEUE=packages-worker CROWD_TEMPORAL_NAMESPACE=$CROWD_PACKAGES_TEMPORAL_NAMESPACE SERVICE=packages-worker tsx src/bin/packages-worker.ts",
+    "start:criticality-worker": "CROWD_TEMPORAL_TASKQUEUE=packages-worker CROWD_TEMPORAL_NAMESPACE=$CROWD_PACKAGES_TEMPORAL_NAMESPACE SERVICE=criticality-worker tsx src/bin/criticality-worker.ts",
     "start:deps-dev-ingest": "CROWD_TEMPORAL_TASKQUEUE=deps-dev-ingest CROWD_TEMPORAL_NAMESPACE=$CROWD_PACKAGES_TEMPORAL_NAMESPACE SERVICE=deps-dev-ingest tsx src/bin/deps-dev-ingest.ts",
-    "start:github-repos-enricher": "SERVICE=github-repos-enricher tsx src/bin/github-repos-enricher.ts",
     "start:npm-worker": "CROWD_TEMPORAL_TASKQUEUE=npm-worker CROWD_TEMPORAL_NAMESPACE=$CROWD_PACKAGES_TEMPORAL_NAMESPACE SERVICE=npm-worker tsx src/bin/npm-worker.ts",
-    "start:packages-worker": "CROWD_TEMPORAL_TASKQUEUE=packages-worker CROWD_TEMPORAL_NAMESPACE=$CROWD_PACKAGES_TEMPORAL_NAMESPACE SERVICE=packages-worker tsx src/bin/packages-worker.ts",
+    "start:github-repos-enricher": "SERVICE=github-repos-enricher tsx src/bin/github-repos-enricher.ts",
+    "run:pagerank": "tsx src/criticality/run-pagerank.ts",
+    "run:impact": "tsx src/criticality/run-impact.ts",
+    "dev:pagerank": "tsx --expose-gc src/criticality/run-pagerank.ts",
+    "dev:packages-worker": "CROWD_TEMPORAL_TASKQUEUE=packages-worker CROWD_TEMPORAL_NAMESPACE=$CROWD_PACKAGES_TEMPORAL_NAMESPACE SERVICE=packages-worker LOG_LEVEL=trace nodemon --watch src --watch ../../libs --ext ts --exec tsx --inspect=0.0.0.0:9233 src/bin/packages-worker.ts",
+    "dev:criticality-worker": "CROWD_TEMPORAL_TASKQUEUE=packages-worker CROWD_TEMPORAL_NAMESPACE=$CROWD_PACKAGES_TEMPORAL_NAMESPACE SERVICE=criticality-worker LOG_LEVEL=trace nodemon --watch src --watch ../../libs --ext ts --exec tsx --inspect=0.0.0.0:9237 src/bin/criticality-worker.ts",
     "dev:deps-dev-ingest": "CROWD_TEMPORAL_TASKQUEUE=deps-dev-ingest CROWD_TEMPORAL_NAMESPACE=$CROWD_PACKAGES_TEMPORAL_NAMESPACE SERVICE=deps-dev-ingest nodemon --watch src --watch ../../libs --ext ts --exec tsx --inspect=0.0.0.0:9235 src/bin/deps-dev-ingest.ts",
-    "dev:deps-dev-ingest:local": "set -a && . ../../../backend/.env.dist.local && . ../../../backend/.env.override.local && set +a && CROWD_TEMPORAL_TASKQUEUE=deps-dev-ingest CROWD_TEMPORAL_NAMESPACE=$CROWD_PACKAGES_TEMPORAL_NAMESPACE SERVICE=deps-dev-ingest nodemon --watch src --watch ../../libs --ext ts --exec tsx --inspect=0.0.0.0:9235 src/bin/deps-dev-ingest.ts",
-    "dev:github-repos-enricher": "SERVICE=github-repos-enricher LOG_LEVEL=trace nodemon --watch src --watch ../../libs --ext ts --exec tsx --inspect=0.0.0.0:9234 src/bin/github-repos-enricher.ts",
-    "dev:github-repos-enricher:local": "set -a && . ../../../backend/.env.dist.local && . ../../../backend/.env.override.local && set +a && SERVICE=github-repos-enricher LOG_LEVEL=trace nodemon --watch src --watch ../../libs --ext ts --exec tsx --inspect=0.0.0.0:9234 src/bin/github-repos-enricher.ts",
     "dev:npm-worker": "CROWD_TEMPORAL_TASKQUEUE=npm-worker CROWD_TEMPORAL_NAMESPACE=$CROWD_PACKAGES_TEMPORAL_NAMESPACE SERVICE=npm-worker LOG_LEVEL=trace nodemon --watch src --watch ../../libs --ext ts --exec tsx --inspect=0.0.0.0:9236 src/bin/npm-worker.ts",
-    "dev:npm-worker:local": "set -a && . ../../../backend/.env.dist.local && . ../../../backend/.env.override.local && set +a && CROWD_TEMPORAL_TASKQUEUE=npm-worker CROWD_TEMPORAL_NAMESPACE=$CROWD_PACKAGES_TEMPORAL_NAMESPACE SERVICE=npm-worker LOG_LEVEL=trace nodemon --watch src --watch ../../libs --ext ts --exec tsx --inspect=0.0.0.0:9236 src/bin/npm-worker.ts",
-    "dev:packages-worker": "CROWD_TEMPORAL_TASKQUEUE=packages-worker CROWD_TEMPORAL_NAMESPACE=$CROWD_PACKAGES_TEMPORAL_NAMESPACE SERVICE=packages-worker LOG_LEVEL=trace nodemon --watch src --watch ../../libs --ext ts --exec tsx --inspect=0.0.0.0:9233 src/bin/packages-worker.ts",
+    "dev:github-repos-enricher": "SERVICE=github-repos-enricher LOG_LEVEL=trace nodemon --watch src --watch ../../libs --ext ts --exec tsx --inspect=0.0.0.0:9234 src/bin/github-repos-enricher.ts",
     "dev:packages-worker:local": "set -a && . ../../../backend/.env.dist.local && . ../../../backend/.env.override.local && set +a && CROWD_TEMPORAL_TASKQUEUE=packages-worker CROWD_TEMPORAL_NAMESPACE=$CROWD_PACKAGES_TEMPORAL_NAMESPACE SERVICE=packages-worker LOG_LEVEL=trace nodemon --watch src --watch ../../libs --ext ts --exec tsx --inspect=0.0.0.0:9233 src/bin/packages-worker.ts",
+    "dev:criticality-worker:local": "set -a && . ../../../backend/.env.dist.local && . ../../../backend/.env.override.local && set +a && CROWD_TEMPORAL_TASKQUEUE=packages-worker CROWD_TEMPORAL_NAMESPACE=$CROWD_PACKAGES_TEMPORAL_NAMESPACE SERVICE=criticality-worker LOG_LEVEL=trace nodemon --watch src --watch ../../libs --ext ts --exec tsx --inspect=0.0.0.0:9237 src/bin/criticality-worker.ts",
+    "dev:deps-dev-ingest:local": "set -a && . ../../../backend/.env.dist.local && . ../../../backend/.env.override.local && set +a && CROWD_TEMPORAL_TASKQUEUE=deps-dev-ingest CROWD_TEMPORAL_NAMESPACE=$CROWD_PACKAGES_TEMPORAL_NAMESPACE SERVICE=deps-dev-ingest nodemon --watch src --watch ../../libs --ext ts --exec tsx --inspect=0.0.0.0:9235 src/bin/deps-dev-ingest.ts",
+    "dev:npm-worker:local": "set -a && . ../../../backend/.env.dist.local && . ../../../backend/.env.override.local && set +a && CROWD_TEMPORAL_TASKQUEUE=npm-worker CROWD_TEMPORAL_NAMESPACE=$CROWD_PACKAGES_TEMPORAL_NAMESPACE SERVICE=npm-worker LOG_LEVEL=trace nodemon --watch src --watch ../../libs --ext ts --exec tsx --inspect=0.0.0.0:9236 src/bin/npm-worker.ts",
+    "dev:github-repos-enricher:local": "set -a && . ../../../backend/.env.dist.local && . ../../../backend/.env.override.local && set +a && SERVICE=github-repos-enricher LOG_LEVEL=trace nodemon --watch src --watch ../../libs --ext ts --exec tsx --inspect=0.0.0.0:9234 src/bin/github-repos-enricher.ts",
     "export-to-bucket": "SERVICE=deps-dev-ingest tsx src/scripts/exportToBucket.ts",
     "export-to-bucket:local": "set -a && . ../../../backend/.env.dist.local && . ../../../backend/.env.override.local && set +a && SERVICE=deps-dev-ingest tsx src/scripts/exportToBucket.ts",
     "monitor:osspckgs": "SERVICE=monitor tsx src/scripts/monitorOsspckgs.ts",
 
@@ -0,0 +1,36 @@
+import { getServiceLogger } from '@crowd/logging'
+
+import { getPackagesDb } from '../db'
+
+const log = getServiceLogger()
+
+let shuttingDown = false
+
+process.on('SIGINT', () => {
+  shuttingDown = true
+})
+process.on('SIGTERM', () => {
+  shuttingDown = true
+})
+
+async function main() {
+  log.info('criticality-worker starting')
+
+  const qx = await getPackagesDb()
+  await qx.selectOne('SELECT 1')
+  log.info(
+    'Connected to packages-db. Ready — trigger PageRank via run:pagerank or impact score via rank_packages_universe().',
+  )
+
+  while (!shuttingDown) {
+    await new Promise((resolve) => setTimeout(resolve, 5_000))
+  }
+
+  log.info('criticality-worker stopped')
+  process.exit(0)
+}
+
+main().catch((err) => {
+  log.error({ err }, 'criticality-worker fatal error')
+  process.exit(1)
+})
@@ -0,0 +1,65 @@
+import { Context } from '@temporalio/activity'
+
+import { getServiceChildLogger } from '@crowd/logging'
+
+import { getPackagesDb } from '../db'
+
+import { buildGraph, computePageRank } from './graph'
+import { loadDirectEdges, mergeCentralityScores } from './queries'
+import { CentralityInput, CentralityResult } from './types'
+
+const log = getServiceChildLogger('criticality')
+
+const PAGERANK_DAMPING = 0.85
+const PAGERANK_MAX_ITER = 100
+const PAGERANK_CONVERGENCE = 1e-6
+
+export async function criticalityComputePageRank(
+  input: CentralityInput,
+): Promise<CentralityResult> {
+  const { ecosystem } = input
+  const damping = PAGERANK_DAMPING
+  const maxIter = PAGERANK_MAX_ITER
+  const convergence = PAGERANK_CONVERGENCE
+  const start = Date.now()
+  const qx = await getPackagesDb()
+
+  // ── Step 1: build CSR graph
+  const edges = await loadDirectEdges(qx, ecosystem)
+  const edgeCount = edges.length
+  const graph = buildGraph(edges)
+  edges.length = 0 // release JS edge objects — CSR holds all graph data
+  log.info({ ecosystem, nodeCount: graph.N, edgeCount }, 'graph loaded')
+
+  // ── Step 2 & 3: PageRank
+  const { scores, iterations } = computePageRank(
+    graph,
+    damping,
+    maxIter,
+    convergence,
+    (iter, delta) => {
+      try {
+        Context.current().heartbeat({ ecosystem, iter, delta })
+      } catch {
+        /* standalone */
+      }
+    },
+  )
+  log.info({ ecosystem, iterations, nodeCount: graph.N }, 'PageRank converged')
+
+  // ── Step 4: merge centrality_score into packages_universe
+  // Stream map entries into fixed-size chunks — O(CHUNK) extra memory, not O(N).
+  const CHUNK = 10_000
+  let buffer: Array<{ packageId: number; centralityScore: number }> = []
+
+  for (const [packageId, idx] of graph.nodeIndex) {
+    buffer.push({ packageId, centralityScore: scores[idx] })
+    if (buffer.length === CHUNK) {
+      await mergeCentralityScores(qx, buffer)
+      buffer = []
+    }
+  }
+  if (buffer.length > 0) await mergeCentralityScores(qx, buffer)
+
+  return { ecosystem, nodeCount: graph.N, edgeCount, iterations, durationMs: Date.now() - start }
+}