feat: Add audio fingerprinting with similarity detection

willibrandon · willibrandon · commit 2e0b6c81fa3e · 2025-09-17T00:54:26.000-07:00
- Implement comprehensive fingerprinting system with spectral hashing, landmarks, and perceptual hashing
- Add FingerprintMatcher for comparing audio similarity (0-100% scores)
- Add FingerprintDatabase with inverted index for fast similarity search
- Integrate fingerprint comparison into MCP server's compare_audio tool
- Include example demonstrating fingerprint generation and similarity detection
- Support match types: Identical, VerySimilar, Similar, PartiallySimilar, Different
diff --git a/README.md b/README.md
@@ -12,6 +12,7 @@ High-fidelity audio analysis bridge for development workflows. Analyze audio fil
 - **Musical Analysis**: Key detection with confidence, chord progression, harmonic complexity
 - **Quality Assessment**: SNR, THD, clipping detection, noise floor, and reliability scoring
 - **Segment Analysis**: Temporal structure detection, pattern recognition, coherence analysis
+- **Audio Fingerprinting**: Similarity detection, duplicate finding, content identification
 - **Visualization**: Waveforms, spectrograms, power curves (base64 encoded)
 - **MCP Integration**: Direct integration with AI assistants via Model Context Protocol
 - **Content-based Caching**: Fast re-analysis with BLAKE3 hashing
@@ -77,6 +78,8 @@ async fn main() -> Result<(), Box<dyn std::error::Error>> {
     println!("Loudness: {:.1} LUFS", result.perceptual.loudness_lufs);
     println!("True peak: {:.1} dBFS", result.perceptual.true_peak_dbfs);
     println!("Content type: {:?}", result.classification.primary_type);
+    println!("Audio quality score: {:.1}%", result.quality.overall_score * 100.0);
+    println!("Fingerprint hash: {:016x}", result.fingerprint.perceptual_hash);
 
     Ok(())
 }
@@ -101,11 +104,13 @@ Parameters:
 - `max_data_points`: Limit array sizes for pagination (default: 1000)
 - `cursor`: Continue from previous response's next_cursor
 
-#### `compare_audio` - Compare two audio files
+#### `compare_audio` - Compare two audio files with fingerprint similarity
 Parameters:
 - `file_a`, `file_b` (required): Paths to audio files
 - `metrics`: Optional comparison metrics to calculate
 
+Returns fingerprint similarity score (0.0-1.0) and match type (Identical, Similar, Different, etc.)
+
 #### `get_job_status` - Check analysis job status
 Parameters:
 - `job_id` (required): Job ID from previous analysis
@@ -122,7 +127,8 @@ src/
 │   ├── classification.rs # Speech/music/silence detection
 │   ├── musical.rs  # Key detection, chord progression, harmonic analysis
 │   ├── quality.rs  # Audio quality assessment and issue detection
-│   └── segments.rs # Segment-based temporal structure analysis
+│   ├── segments.rs # Segment-based temporal structure analysis
+│   └── fingerprint.rs # Audio fingerprinting and similarity detection
 ├── visualization/  # Waveform and spectrogram generation
 ├── cache/          # Content-based caching system
 ├── mcp/           # MCP server implementation
@@ -164,17 +170,41 @@ cargo run --example generate_samples
 # Basic analysis
 cargo run --example basic_analysis
 
-# Envelope visualization (creates PNG)
-cargo run --example envelope_visualization
+# Spectral analysis (FFT/STFT)
+cargo run --example spectral_analysis
 
 # Onset detection
 cargo run --example onset_detection
 
+# Perceptual metrics (LUFS, dynamic range)
+cargo run --example perceptual_analysis
+
+# Content classification (speech/music/silence)
+cargo run --example content_classification
+
+# Musical analysis (key detection, chords)
+cargo run --example musical_analysis
+
+# Audio quality assessment
+cargo run --example quality_assessment
+
+# Segment-based temporal analysis
+cargo run --example segment_analysis
+
+# Audio fingerprinting and similarity detection
+cargo run --example fingerprint_similarity
+
 # Compare two audio files
 cargo run --example compare_files
 
+# Cached analysis demonstration
+cargo run --example cached_analysis
+
 # Batch processing
 cargo run --example batch_processing
+
+# Envelope visualization (creates PNG)
+cargo run --example envelope_visualization
 ```
 
 See [examples/README.md](examples/README.md) for more details.
diff --git a/examples/README.md b/examples/README.md
@@ -23,6 +23,7 @@ This creates a `samples/` directory with test WAV files including sine waves, ch
 - **musical_analysis.rs** - Key detection, chroma analysis, and harmonic complexity
 - **quality_assessment.rs** - Audio quality scoring, issue detection, and recommendations
 - **segment_analysis.rs** - Temporal structure, pattern detection, and coherence analysis
+- **fingerprint_similarity.rs** - Audio fingerprinting, similarity detection, and duplicate finding
 - **cached_analysis.rs** - Using the cache system for faster repeated analysis
 - **batch_processing.rs** - Process multiple files in parallel
 - **envelope_visualization.rs** - Generate waveform visualization with peak and RMS envelopes
@@ -42,6 +43,7 @@ cargo run --example content_classification
 cargo run --example musical_analysis
 cargo run --example quality_assessment
 cargo run --example segment_analysis
+cargo run --example fingerprint_similarity
 cargo run --example cached_analysis
 cargo run --example batch_processing
 cargo run --example envelope_visualization
diff --git a/examples/fingerprint_similarity.rs b/examples/fingerprint_similarity.rs
@@ -0,0 +1,208 @@
+//! Example demonstrating audio fingerprinting and similarity detection
+
+use ferrous_waves::analysis::fingerprint::{
+    FingerprintDatabase, FingerprintGenerator, FingerprintMatcher,
+};
+use ferrous_waves::{AnalysisEngine, AudioFile};
+use std::error::Error;
+
+#[tokio::main]
+async fn main() -> Result<(), Box<dyn Error>> {
+    println!("Audio Fingerprinting and Similarity Detection Example");
+    println!("====================================================\n");
+
+    // Analyze files and generate fingerprints
+    let files = vec![
+        ("samples/drums.wav", "Drum pattern"),
+        ("samples/music.wav", "Musical content"),
+        ("samples/test.wav", "Test signal"),
+    ];
+
+    let engine = AnalysisEngine::new();
+    let generator = FingerprintGenerator::new(44100.0);
+    let mut database = FingerprintDatabase::new();
+
+    println!("Generating fingerprints...");
+    println!("-------------------------");
+
+    for (file_path, description) in &files {
+        println!("\nAnalyzing: {} ({})", file_path, description);
+
+        let audio = AudioFile::load(file_path)?;
+        let result = engine.analyze(&audio).await?;
+
+        // Display fingerprint info
+        let fingerprint = &result.fingerprint;
+
+        println!("  Fingerprint Details:");
+        println!("    Perceptual hash: {:016x}", fingerprint.perceptual_hash);
+        println!("    Spectral hashes: {}", fingerprint.spectral_hashes.len());
+        println!("    Landmarks: {}", fingerprint.landmarks.len());
+        println!(
+            "    Sub-fingerprints: {}",
+            fingerprint.sub_fingerprints.len()
+        );
+        println!(
+            "    Compact size: {} bytes",
+            fingerprint.fingerprint.len() * 8
+        );
+
+        // Show dominant frequencies
+        if !fingerprint.metadata.dominant_frequencies.is_empty() {
+            println!("    Dominant frequencies:");
+            for freq in fingerprint.metadata.dominant_frequencies.iter().take(3) {
+                println!("      {:.1} Hz", freq);
+            }
+        }
+
+        // Show landmark types
+        let spectral_peaks = fingerprint
+            .landmarks
+            .iter()
+            .filter(|l| {
+                matches!(
+                    l.landmark_type,
+                    ferrous_waves::analysis::fingerprint::LandmarkType::SpectralPeak
+                )
+            })
+            .count();
+        let onsets = fingerprint
+            .landmarks
+            .iter()
+            .filter(|l| {
+                matches!(
+                    l.landmark_type,
+                    ferrous_waves::analysis::fingerprint::LandmarkType::OnsetEvent
+                )
+            })
+            .count();
+
+        println!("    Landmark breakdown:");
+        println!("      Spectral peaks: {}", spectral_peaks);
+        println!("      Onset events: {}", onsets);
+
+        // Add to database
+        database.insert(file_path.to_string(), fingerprint.clone());
+    }
+
+    // Compare fingerprints
+    println!("\n\nSimilarity Comparison:");
+    println!("======================");
+
+    let matcher = FingerprintMatcher::new();
+
+    for i in 0..files.len() {
+        for j in i + 1..files.len() {
+            let (file_a, desc_a) = files[i];
+            let (file_b, desc_b) = files[j];
+
+            let audio_a = AudioFile::load(file_a)?;
+            let audio_b = AudioFile::load(file_b)?;
+
+            let fp_a = generator.generate(&audio_a.buffer.to_mono())?;
+            let fp_b = generator.generate(&audio_b.buffer.to_mono())?;
+
+            let match_result = matcher.compare(&fp_a, &fp_b);
+
+            println!("\n{} vs {}", desc_a, desc_b);
+            println!(
+                "  Overall similarity: {:.1}%",
+                match_result.similarity * 100.0
+            );
+            println!("  Match type: {:?}", match_result.match_type);
+            println!("  Confidence: {:.1}%", match_result.confidence * 100.0);
+
+            println!("  Detailed scores:");
+            println!("    Spectral: {:.1}%", match_result.scores.spectral * 100.0);
+            println!("    Temporal: {:.1}%", match_result.scores.temporal * 100.0);
+            println!("    Energy: {:.1}%", match_result.scores.energy * 100.0);
+            println!("    Landmark: {:.1}%", match_result.scores.landmark * 100.0);
+            println!(
+                "    Perceptual: {:.1}%",
+                match_result.scores.perceptual * 100.0
+            );
+
+            if !match_result.matched_segments.is_empty() {
+                println!(
+                    "  Matched segments: {}",
+                    match_result.matched_segments.len()
+                );
+                for (idx, segment) in match_result.matched_segments.iter().enumerate().take(3) {
+                    println!(
+                        "    {}. [{:.1}s] ↔ [{:.1}s] (quality: {:.1}%)",
+                        idx + 1,
+                        segment.time_a,
+                        segment.time_b,
+                        segment.quality * 100.0
+                    );
+                }
+            }
+
+            if let Some(offset) = match_result.time_offset {
+                println!("  Time offset detected: {:.2}s", offset);
+            }
+        }
+    }
+
+    // Database search demonstration
+    println!("\n\nDatabase Search:");
+    println!("================");
+
+    // Search with the first file
+    if let Some((query_file, query_desc)) = files.first() {
+        let audio = AudioFile::load(query_file)?;
+        let query_fp = generator.generate(&audio.buffer.to_mono())?;
+
+        println!("Searching for: {} in database", query_desc);
+
+        let results = database.search(&query_fp, 0.3);
+
+        println!("Found {} matches:", results.len());
+        for (id, match_result) in results {
+            println!(
+                "  - {} (similarity: {:.1}%, type: {:?})",
+                id,
+                match_result.similarity * 100.0,
+                match_result.match_type
+            );
+        }
+    }
+
+    // Self-similarity test
+    println!("\n\nSelf-Similarity Test:");
+    println!("=====================");
+
+    let test_audio = AudioFile::load("samples/test.wav")?;
+    let fp1 = generator.generate(&test_audio.buffer.to_mono())?;
+    let fp2 = generator.generate(&test_audio.buffer.to_mono())?;
+
+    let self_match = matcher.compare(&fp1, &fp2);
+
+    println!("Same audio compared to itself:");
+    println!("  Similarity: {:.1}%", self_match.similarity * 100.0);
+    println!("  Match type: {:?}", self_match.match_type);
+    println!("  Expected: >99% similarity for identical audio");
+
+    // Reference information
+    println!("\n\nFingerprinting Reference:");
+    println!("========================");
+    println!("Match Types:");
+    println!("  Identical: >95% similarity");
+    println!("  Very Similar: 85-95% similarity");
+    println!("  Similar: 70-85% similarity");
+    println!("  Partially Similar: 50-70% similarity");
+    println!("  Different: <50% similarity");
+    println!("\nUse Cases:");
+    println!("  - Duplicate detection in music libraries");
+    println!("  - Copyright and content identification");
+    println!("  - Version tracking (remixes, covers)");
+    println!("  - Audio synchronization and alignment");
+    println!("  - Partial matching for samples and loops");
+    println!("\nFingerprint Components:");
+    println!("  - Spectral hashes: Frequency pattern encoding");
+    println!("  - Landmarks: Significant acoustic events");
+    println!("  - Perceptual hash: Overall audio signature");
+    println!("  - Sub-fingerprints: Partial matching support");
+
+    Ok(())
+}
diff --git a/src/analysis/engine.rs b/src/analysis/engine.rs
@@ -1,4 +1,5 @@
 use crate::analysis::classification::{ContentClassification, ContentClassifier};
+use crate::analysis::fingerprint::{AudioFingerprint, FingerprintGenerator};
 use crate::analysis::musical::{MusicalAnalysis, MusicalAnalyzer};
 use crate::analysis::perceptual::{calculate_perceptual_metrics, PerceptualMetrics};
 use crate::analysis::quality::{QualityAnalyzer, QualityAssessment};
@@ -23,6 +24,7 @@ pub struct AnalysisResult {
     pub musical: MusicalAnalysis,
     pub quality: QualityAssessment,
     pub segments: SegmentAnalysis,
+    pub fingerprint: AudioFingerprint,
     pub visuals: VisualsData,
     pub insights: Vec<String>,
     pub recommendations: Vec<String>,
@@ -366,6 +368,10 @@ impl AnalysisEngine {
         let segment_analyzer = SegmentAnalyzer::new(audio.buffer.sample_rate as f32);
         let segments = segment_analyzer.analyze(&mono)?;
 
+        // Generate audio fingerprint
+        let fingerprint_generator = FingerprintGenerator::new(audio.buffer.sample_rate as f32);
+        let fingerprint = fingerprint_generator.generate(&mono)?;
+
         // Add musical insights
         insights.push(format!(
             "Key: {} (confidence: {:.0}%)",
@@ -435,6 +441,17 @@ impl AnalysisEngine {
             insights.push("Low segment coherence - abrupt changes detected".to_string());
         }
 
+        // Add fingerprint insights
+        insights.push(format!(
+            "Audio fingerprint generated with {} spectral hashes",
+            fingerprint.spectral_hashes.len()
+        ));
+
+        insights.push(format!(
+            "{} acoustic landmarks detected",
+            fingerprint.landmarks.len()
+        ));
+
         // Add perceptual insights
         if perceptual.loudness_lufs < -23.0 {
             insights.push(format!(
@@ -506,6 +523,7 @@ impl AnalysisEngine {
             musical,
             quality,
             segments,
+            fingerprint,
             insights,
             recommendations,
         };
@@ -540,6 +558,19 @@ impl AnalysisEngine {
             _ => None,
         };
 
+        // Compare fingerprints
+        let (fingerprint_similarity, fingerprint_match_type) = match (&analysis_a, &analysis_b) {
+            (Some(a), Some(b)) => {
+                let matcher = crate::analysis::fingerprint::FingerprintMatcher::new();
+                let match_result = matcher.compare(&a.fingerprint, &b.fingerprint);
+                (
+                    Some(match_result.similarity),
+                    Some(format!("{:?}", match_result.match_type)),
+                )
+            }
+            _ => (None, None),
+        };
+
         let duration_difference = audio_a.buffer.duration_seconds - audio_b.buffer.duration_seconds;
         let sample_rate_match = audio_a.buffer.sample_rate == audio_b.buffer.sample_rate;
 
@@ -563,6 +594,8 @@ impl AnalysisEngine {
                 sample_rate_match,
                 tempo_difference,
                 spectral_similarity: None,
+                fingerprint_similarity,
+                fingerprint_match_type,
             },
         }
     }
@@ -590,6 +623,8 @@ pub struct ComparisonMetrics {
     pub sample_rate_match: bool,
     pub tempo_difference: Option<f32>,
     pub spectral_similarity: Option<f32>,
+    pub fingerprint_similarity: Option<f32>,
+    pub fingerprint_match_type: Option<String>,
 }
 
 impl Default for AnalysisEngine {
diff --git a/src/analysis/fingerprint.rs b/src/analysis/fingerprint.rs
diff --git a/src/analysis/mod.rs b/src/analysis/mod.rs