Xor-el
diff --git a/‎HashLib.Benchmark/Delphi/PerformanceBenchmarkConsole.dpr‎
Lines changed: 1 addition & 0 deletions b/‎HashLib.Benchmark/Delphi/PerformanceBenchmarkConsole.dpr‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎HashLib.Benchmark/Delphi/PerformanceBenchmarkFMX.dpr‎
Lines changed: 1 addition & 0 deletions b/‎HashLib.Benchmark/Delphi/PerformanceBenchmarkFMX.dpr‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎HashLib.Tests/Delphi.Tests/HashLib.Tests.dpr‎
Lines changed: 1 addition & 0 deletions b/‎HashLib.Tests/Delphi.Tests/HashLib.Tests.dpr‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎HashLib/src/Checksum/HlpAdler32.pas‎
Lines changed: 9 additions & 51 deletions b/‎HashLib/src/Checksum/HlpAdler32.pas‎
Lines changed: 9 additions & 51 deletions
diff --git a/‎HashLib/src/Checksum/HlpAdler32Dispatch.pas‎
Lines changed: 180 additions & 0 deletions b/‎HashLib/src/Checksum/HlpAdler32Dispatch.pas‎
Lines changed: 180 additions & 0 deletions
diff --git a/‎HashLib/src/Include/Simd/Adler32/Adler32BlocksAvx2.inc‎
Lines changed: 77 additions & 0 deletions b/‎HashLib/src/Include/Simd/Adler32/Adler32BlocksAvx2.inc‎
Lines changed: 77 additions & 0 deletions
@@ -17,6 +17,7 @@ uses
   HlpHMACNotBuildInAdapter in '..\..\HashLib\src\Base\HlpHMACNotBuildInAdapter.pas',
   HlpMultipleTransformNonBlock in '..\..\HashLib\src\Base\HlpMultipleTransformNonBlock.pas',
   HlpAdler32 in '..\..\HashLib\src\Checksum\HlpAdler32.pas',
+  HlpAdler32Dispatch in '..\..\HashLib\src\Checksum\HlpAdler32Dispatch.pas',
   HlpCRC in '..\..\HashLib\src\Checksum\HlpCRC.pas',
   HlpCRC16 in '..\..\HashLib\src\Checksum\HlpCRC16.pas',
   HlpCRC32 in '..\..\HashLib\src\Checksum\HlpCRC32.pas',
 
@@ -16,6 +16,7 @@ uses
   HlpHMACNotBuildInAdapter in '..\..\HashLib\src\Base\HlpHMACNotBuildInAdapter.pas',
   HlpMultipleTransformNonBlock in '..\..\HashLib\src\Base\HlpMultipleTransformNonBlock.pas',
   HlpAdler32 in '..\..\HashLib\src\Checksum\HlpAdler32.pas',
+  HlpAdler32Dispatch in '..\..\HashLib\src\Checksum\HlpAdler32Dispatch.pas',
   HlpCRC in '..\..\HashLib\src\Checksum\HlpCRC.pas',
   HlpCRC16 in '..\..\HashLib\src\Checksum\HlpCRC16.pas',
   HlpCRC32 in '..\..\HashLib\src\Checksum\HlpCRC32.pas',
 
@@ -38,6 +38,7 @@ uses
   HlpHMACNotBuildInAdapter in '..\..\HashLib\src\Base\HlpHMACNotBuildInAdapter.pas',
   HlpMultipleTransformNonBlock in '..\..\HashLib\src\Base\HlpMultipleTransformNonBlock.pas',
   HlpAdler32 in '..\..\HashLib\src\Checksum\HlpAdler32.pas',
+  HlpAdler32Dispatch in '..\..\HashLib\src\Checksum\HlpAdler32Dispatch.pas',
   HlpCRC in '..\..\HashLib\src\Checksum\HlpCRC.pas',
   HlpCRC16 in '..\..\HashLib\src\Checksum\HlpCRC16.pas',
   HlpCRC32 in '..\..\HashLib\src\Checksum\HlpCRC32.pas',
 
@@ -20,9 +20,6 @@   TAdler32 = class sealed(THash, IChecksum, IHash32, ITransformBlock)
   var
     FSumA, FSumB: UInt32;
 
-  const
-    ModAdler = UInt32(65521);
-
   public
     constructor Create();
     procedure Initialize(); override;
@@ -35,6 +32,9 @@   TAdler32 = class sealed(THash, IChecksum, IHash32, ITransformBlock)
 
 implementation
 
+uses
+  HlpAdler32Dispatch;
+
 { TAdler32 }
 
 function TAdler32.Clone(): IHash;
@@ -62,60 +62,18 @@ procedure TAdler32.Initialize;
 procedure TAdler32.TransformBytes(const AData: THashLibByteArray;
   AIndex, ALength: Int32);
 var
-  LChunkLength: Int32;
-  LPtrData: PByte;
-  LSumA, LSumB: UInt32;
+  LSums: array [0 .. 1] of UInt32;
 begin
 {$IFDEF DEBUG}
   System.Assert(AIndex >= 0);
   System.Assert(ALength >= 0);
   System.Assert(AIndex + ALength <= System.Length(AData));
 {$ENDIF DEBUG}
-  LPtrData := PByte(AData) + AIndex;
-
-  {
-    LSumA := FSumA;
-    LSumB := FSumB;
-    while ALength > 0 do
-    begin
-    LSumA := (LSumA + LPtrData^) mod ModAdler;
-    LSumB := (LSumB + LSumA) mod ModAdler;
-    System.Inc(LPtrData);
-    System.Dec(ALength);
-    end;
-    FSumA := LSumA;
-    FSumB := LSumB;
-  }
-
-  // lifted from PngEncoder Adler32.cs
-
-  while ALength > 0 do
-  begin
-    // We can defer the modulo operation:
-    // FSumA maximally grows from 65521 to 65521 + 255 * 3800
-    // FSumB maximally grows by 3800 * median(FSumA) = 2090079800 < 2^31
-    LChunkLength := 3800;
-    if (LChunkLength > ALength) then
-    begin
-      LChunkLength := ALength;
-    end;
-    ALength := ALength - LChunkLength;
-
-    LSumA := FSumA;
-    LSumB := FSumB;
-    while (LChunkLength - 1) >= 0 do
-    begin
-      LSumA := (LSumA + LPtrData^);
-      LSumB := (LSumB + LSumA);
-      System.Inc(LPtrData);
-      System.Dec(LChunkLength);
-    end;
-    LSumA := LSumA mod ModAdler;
-    LSumB := LSumB mod ModAdler;
-
-    FSumA := LSumA;
-    FSumB := LSumB;
-  end;
+  LSums[0] := FSumA;
+  LSums[1] := FSumB;
+  Adler32_Update(PByte(AData) + AIndex, UInt32(ALength), @LSums[0]);
+  FSumA := LSums[0];
+  FSumB := LSums[1];
 end;
 
 function TAdler32.TransformFinal: IHashResult;
 
@@ -0,0 +1,180 @@
+unit HlpAdler32Dispatch;
+
+{$I ..\Include\HashLib.inc}
+
+interface
+
+type
+  TAdler32UpdateProc = procedure(AData: PByte; ALength: UInt32; ASums: Pointer);
+
+var
+  Adler32_Update: TAdler32UpdateProc;
+
+implementation
+
+uses
+  HlpSimd;
+
+const
+  ModAdler = UInt32(65521);
+  NMAX = UInt32(5552);
+  BLOCK_SIZE = UInt32(32);
+  MAX_BLOCKS_PER_CHUNK = NMAX div BLOCK_SIZE; // 173
+
+  Adler32Constants: array [0 .. 63] of Byte = (
+    // Offset 0..31: weights [32,31,...,1]
+    // SSE2/SSSE3 use as two 16-byte halves; AVX2 uses full 32 bytes.
+    32, 31, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17,
+    16, 15, 14, 13, 12, 11, 10,  9,  8,  7,  6,  5,  4,  3,  2,  1,
+    // Offset 32..63: ones_16 (16-bit value 1 in little-endian, repeated)
+    // SSSE3 uses first 16 bytes; AVX2 uses all 32 bytes.
+    1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0,
+    1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0
+  );
+
+// =============================================================================
+// Scalar fallback implementation
+// =============================================================================
+
+procedure Adler32_Update_Scalar(AData: PByte; ALength: UInt32; ASums: Pointer);
+var
+  LChunkLen: UInt32;
+  LPSumA, LPSumB: PUInt32;
+begin
+  LPSumA := PUInt32(ASums);
+  LPSumB := PUInt32(PByte(ASums) + SizeOf(UInt32));
+
+  while ALength > 0 do
+  begin
+    LChunkLen := ALength;
+    if LChunkLen > NMAX then
+      LChunkLen := NMAX;
+    Dec(ALength, LChunkLen);
+
+    while LChunkLen > 0 do
+    begin
+      LPSumA^ := LPSumA^ + AData^;
+      LPSumB^ := LPSumB^ + LPSumA^;
+      Inc(AData);
+      Dec(LChunkLen);
+    end;
+
+    LPSumA^ := LPSumA^ mod ModAdler;
+    LPSumB^ := LPSumB^ mod ModAdler;
+  end;
+end;
+
+// =============================================================================
+// SIMD implementations (x86-64 only)
+// =============================================================================
+
+{$IFDEF HASHLIB_X86_64}
+
+type
+  TProcessBlocksProc = procedure(AData: PByte; ANumBlocks: UInt32;
+    ASums, AConstants: Pointer);
+
+procedure Adler32_ProcessBlocks_Sse2(AData: PByte; ANumBlocks: UInt32;
+  ASums, AConstants: Pointer);
+  {$I ..\Include\Simd\Common\SimdProc4Begin.inc}
+  {$I ..\Include\Simd\Adler32\Adler32BlocksSse2.inc}
+end;
+
+procedure Adler32_ProcessBlocks_Ssse3(AData: PByte; ANumBlocks: UInt32;
+  ASums, AConstants: Pointer);
+  {$I ..\Include\Simd\Common\SimdProc4Begin.inc}
+  {$I ..\Include\Simd\Adler32\Adler32BlocksSsse3.inc}
+end;
+
+procedure Adler32_ProcessBlocks_Avx2(AData: PByte; ANumBlocks: UInt32;
+  ASums, AConstants: Pointer);
+  {$I ..\Include\Simd\Common\SimdProc4Begin.inc}
+  {$I ..\Include\Simd\Adler32\Adler32BlocksAvx2.inc}
+end;
+
+procedure Adler32_Update_Simd(AData: PByte; ALength: UInt32; ASums: Pointer;
+  AProcessBlocks: TProcessBlocksProc);
+var
+  LChunkLen, LBlocks: UInt32;
+  LPSumA, LPSumB: PUInt32;
+begin
+  LPSumA := PUInt32(ASums);
+  LPSumB := PUInt32(PByte(ASums) + SizeOf(UInt32));
+
+  while ALength > 0 do
+  begin
+    LChunkLen := ALength;
+    if LChunkLen > NMAX then
+      LChunkLen := NMAX;
+    Dec(ALength, LChunkLen);
+
+    LBlocks := LChunkLen div BLOCK_SIZE;
+    if LBlocks > 0 then
+    begin
+      AProcessBlocks(AData, LBlocks, ASums, @Adler32Constants[0]);
+      Inc(AData, LBlocks * BLOCK_SIZE);
+      Dec(LChunkLen, LBlocks * BLOCK_SIZE);
+    end;
+
+    while LChunkLen > 0 do
+    begin
+      LPSumA^ := LPSumA^ + AData^;
+      LPSumB^ := LPSumB^ + LPSumA^;
+      Inc(AData);
+      Dec(LChunkLen);
+    end;
+
+    LPSumA^ := LPSumA^ mod ModAdler;
+    LPSumB^ := LPSumB^ mod ModAdler;
+  end;
+end;
+
+procedure Adler32_Update_Sse2(AData: PByte; ALength: UInt32; ASums: Pointer);
+begin
+  Adler32_Update_Simd(AData, ALength, ASums, @Adler32_ProcessBlocks_Sse2);
+end;
+
+procedure Adler32_Update_Ssse3(AData: PByte; ALength: UInt32; ASums: Pointer);
+begin
+  Adler32_Update_Simd(AData, ALength, ASums, @Adler32_ProcessBlocks_Ssse3);
+end;
+
+procedure Adler32_Update_Avx2(AData: PByte; ALength: UInt32; ASums: Pointer);
+begin
+  Adler32_Update_Simd(AData, ALength, ASums, @Adler32_ProcessBlocks_Avx2);
+end;
+
+{$ENDIF HASHLIB_X86_64}
+
+// =============================================================================
+// Dispatch initialization
+// =============================================================================
+
+procedure InitDispatch();
+begin
+  case TSimd.GetActiveLevel() of
+{$IFDEF HASHLIB_X86_64}
+    TSimdLevel.AVX2:
+    begin
+      Adler32_Update := @Adler32_Update_Avx2;
+    end;
+    TSimdLevel.SSSE3:
+    begin
+      Adler32_Update := @Adler32_Update_Ssse3;
+    end;
+    TSimdLevel.SSE2:
+    begin
+      Adler32_Update := @Adler32_Update_Sse2;
+    end;
+{$ENDIF}
+    TSimdLevel.Scalar:
+    begin
+      Adler32_Update := @Adler32_Update_Scalar;
+    end;
+  end;
+end;
+
+initialization
+  InitDispatch();
+
+end.
@@ -0,0 +1,77 @@
+// AVX2 implementation of Adler-32 block processing.
+// Expects MS x64 ABI: rcx = data ptr, edx = num_blocks, r8 = sums ptr, r9 = constants ptr.
+// ASums layout: [SumA: UInt32, SumB: UInt32].
+// Constants layout: [weights: 32B, ones_16: 32B] at offsets 0 and 32.
+// Processes num_blocks x 32-byte blocks. Does NOT apply mod 65521 (caller does it).
+// Uses ymm0-ymm5 only (all volatile on Windows x64, no saves needed).
+// Weights and ones are reloaded from memory each iteration to avoid
+// using non-volatile ymm registers.
+// AVX/AVX2 instructions are db-encoded for broad assembler compatibility.
+
+  // Zero register
+  db $C5, $E5, $EF, $DB                         // vpxor ymm3, ymm3, ymm3
+
+  // Load initial sums
+  mov eax, dword [r8]
+  mov r10d, dword [r8 + 4]
+  mov r11d, edx
+
+  // v_ps = [SumA * num_blocks, 0, 0, 0]
+  imul edx, eax
+  db $C5, $F9, $6E, $D2                         // vmovd xmm2, edx
+
+  // v_s2 = [SumB, 0, 0, 0]
+  db $C4, $C1, $79, $6E, $CA                    // vmovd xmm1, r10d
+
+  // v_s1 = 0
+  db $C5, $F9, $EF, $C0                         // vpxor xmm0, xmm0, xmm0
+
+@loop:
+  db $C5, $ED, $FE, $D0                         // vpaddd ymm2, ymm2, ymm0
+
+  // Load 32 data bytes
+  db $C5, $FE, $6F, $21                         // vmovdqu ymm4, yword [rcx]
+
+  // Byte sum for s1
+  db $C5, $DD, $F6, $EB                         // vpsadbw ymm5, ymm4, ymm3
+  db $C5, $FD, $FE, $C5                         // vpaddd ymm0, ymm0, ymm5
+
+  // Weighted sum for s2
+  db $C4, $C1, $7E, $6F, $29                    // vmovdqu ymm5, yword [r9]
+  db $C4, $E2, $5D, $04, $E5                    // vpmaddubsw ymm4, ymm4, ymm5
+  db $C4, $C1, $7E, $6F, $69, $20              // vmovdqu ymm5, yword [r9 + 32]
+  db $C5, $DD, $F5, $E5                         // vpmaddwd ymm4, ymm4, ymm5
+  db $C5, $F5, $FE, $CC                         // vpaddd ymm1, ymm1, ymm4
+
+  add rcx, 32
+  dec r11d
+  jnz @loop
+
+  // v_s2 += v_ps * 32
+  db $C5, $ED, $72, $F2, $05                    // vpslld ymm2, ymm2, 5
+  db $C5, $F5, $FE, $CA                         // vpaddd ymm1, ymm1, ymm2
+
+  // Horizontal reduce v_s1: extract high 128 + 128-bit hsum
+  db $C4, $E3, $7D, $39, $C5, $01              // vextracti128 xmm5, ymm0, 1
+  db $C5, $F9, $FE, $C5                         // vpaddd xmm0, xmm0, xmm5
+  db $C5, $F9, $70, $E8, $B1                    // vpshufd xmm5, xmm0, $B1
+  db $C5, $F9, $FE, $C5                         // vpaddd xmm0, xmm0, xmm5
+  db $C5, $F9, $70, $E8, $4E                    // vpshufd xmm5, xmm0, $4E
+  db $C5, $F9, $FE, $C5                         // vpaddd xmm0, xmm0, xmm5
+  db $C5, $F9, $7E, $C2                         // vmovd edx, xmm0
+  add eax, edx
+
+  // Horizontal reduce v_s2: extract high 128 + 128-bit hsum
+  db $C4, $E3, $7D, $39, $CD, $01              // vextracti128 xmm5, ymm1, 1
+  db $C5, $F1, $FE, $CD                         // vpaddd xmm1, xmm1, xmm5
+  db $C5, $F9, $70, $E9, $B1                    // vpshufd xmm5, xmm1, $B1
+  db $C5, $F1, $FE, $CD                         // vpaddd xmm1, xmm1, xmm5
+  db $C5, $F9, $70, $E9, $4E                    // vpshufd xmm5, xmm1, $4E
+  db $C5, $F1, $FE, $CD                         // vpaddd xmm1, xmm1, xmm5
+  db $C4, $C1, $79, $7E, $CA                    // vmovd r10d, xmm1
+
+  // Store results
+  mov dword [r8], eax
+  mov dword [r8 + 4], r10d
+
+  db $C5, $F8, $77                              // vzeroupper