EmulatorJS
diff --git a/‎CMakeLists.txt‎
Lines changed: 4 additions & 3 deletions b/‎CMakeLists.txt‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎Common/CPUDetect.cpp‎
Lines changed: 1 addition & 1 deletion b/‎Common/CPUDetect.cpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎Common/Common.h‎
Lines changed: 0 additions & 14 deletions b/‎Common/Common.h‎
Lines changed: 0 additions & 14 deletions
diff --git a/‎Common/Common.vcxproj‎
Lines changed: 1 addition & 2 deletions b/‎Common/Common.vcxproj‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎Common/Common.vcxproj.filters‎
Lines changed: 3 additions & 2 deletions b/‎Common/Common.vcxproj.filters‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎Common/Data/Convert/ColorConv.cpp‎
Lines changed: 42 additions & 50 deletions b/‎Common/Data/Convert/ColorConv.cpp‎
Lines changed: 42 additions & 50 deletions
diff --git a/‎Common/Data/Convert/SmallDataConvert.h‎
Lines changed: 1 addition & 10 deletions b/‎Common/Data/Convert/SmallDataConvert.h‎
Lines changed: 1 addition & 10 deletions
diff --git a/‎Common/Data/Encoding/Compression.cpp‎
Lines changed: 1 addition & 5 deletions b/‎Common/Data/Encoding/Compression.cpp‎
Lines changed: 1 addition & 5 deletions
diff --git a/‎Common/Data/Encoding/Utf8.cpp‎
Lines changed: 0 additions & 1 deletion b/‎Common/Data/Encoding/Utf8.cpp‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎Common/Data/Format/IniFile.cpp‎
Lines changed: 1 addition & 1 deletion b/‎Common/Data/Format/IniFile.cpp‎
Lines changed: 1 addition & 1 deletion
@@ -781,7 +781,8 @@ add_library(Common STATIC
 	Common/Input/InputState.cpp
 	Common/Input/InputState.h
 	Common/Math/fast/fast_matrix.c
-	Common/Math/CrossSIMD.h
+	Common/Math/SIMDHeaders.h
+	Common/Math/SIMDHeaders.h
 	Common/Math/curves.cpp
 	Common/Math/curves.h
 	Common/Math/expression_parser.cpp
@@ -891,8 +892,6 @@ add_library(Common STATIC
 	Common/Log.cpp
 	Common/Log/ConsoleListener.cpp
 	Common/Log/ConsoleListener.h
-	Common/Log/StdioListener.cpp
-	Common/Log/StdioListener.h
 	Common/Log/LogManager.cpp
 	Common/Log/LogManager.h
 	Common/LogReporting.cpp
@@ -1907,6 +1906,8 @@ set(GPU_SOURCES
 	GPU/Common/Draw2D.cpp
 	GPU/Common/Draw2D.h
 	GPU/Common/DepthBufferCommon.cpp
+	GPU/Common/DepthRaster.cpp
+	GPU/Common/DepthRaster.h
 	GPU/Common/TextureShaderCommon.cpp
 	GPU/Common/TextureShaderCommon.h
 	GPU/Common/DepalettizeShaderCommon.cpp
 
@@ -32,10 +32,10 @@
 #include <sys/sysctl.h>
 #endif
 
-#include <algorithm>
 #include <cstdint>
 #include <memory.h>
 #include <set>
+#include <algorithm>
 
 #include "Common/Common.h"
 #include "Common/CPUDetect.h"
 
@@ -87,17 +87,3 @@
 
 #define __forceinline inline __attribute__((always_inline))
 #endif
-
-#if defined __SSE4_2__
-# define _M_SSE 0x402
-#elif defined __SSE4_1__
-# define _M_SSE 0x401
-#elif defined __SSSE3__
-# define _M_SSE 0x301
-#elif defined __SSE3__
-# define _M_SSE 0x300
-#elif defined __SSE2__
-# define _M_SSE 0x200
-#elif !defined(__GNUC__) && (defined(_M_X64) || defined(_M_IX86))
-# define _M_SSE 0x402
-#endif
@@ -541,6 +541,7 @@
     <ClInclude Include="Math\lin\matrix4x4.h" />
     <ClInclude Include="Math\lin\vec3.h" />
     <ClInclude Include="Math\math_util.h" />
+    <ClInclude Include="Math\SIMDHeaders.h" />
     <ClInclude Include="Math\Statistics.h" />
     <ClInclude Include="Net\HTTPNaettRequest.h" />
     <ClInclude Include="Net\NetBuffer.h" />
@@ -586,7 +587,6 @@
     <ClInclude Include="CommonTypes.h" />
     <ClInclude Include="CommonWindows.h" />
     <ClInclude Include="Log\ConsoleListener.h" />
-    <ClInclude Include="Log\StdioListener.h" />
     <ClInclude Include="CPUDetect.h" />
     <ClInclude Include="Crypto\md5.h" />
     <ClInclude Include="Crypto\sha1.h" />
@@ -1060,7 +1060,6 @@
     <ClCompile Include="Serialize\Serializer.cpp" />
     <ClCompile Include="Data\Convert\ColorConv.cpp" />
     <ClCompile Include="Log\ConsoleListener.cpp" />
-    <ClCompile Include="Log\StdioListener.cpp" />
     <ClCompile Include="CPUDetect.cpp" />
     <ClCompile Include="MipsCPUDetect.cpp">
       <ExcludedFromBuild Condition="'$(Configuration)|$(Platform)'=='Debug|Win32'">true</ExcludedFromBuild>
 
@@ -559,7 +559,6 @@
     <ClInclude Include="Render\Text\draw_text_cocoa.h">
       <Filter>Render\Text</Filter>
     </ClInclude>
-    <ClInclude Include="Log\StdioListener.h" />
     <ClInclude Include="Log\ConsoleListener.h">
       <Filter>Log</Filter>
     </ClInclude>
@@ -677,10 +676,12 @@
     <ClInclude Include="Data\Collections\LinkedList.h">
       <Filter>Data\Collections</Filter>
     </ClInclude>
+    <ClInclude Include="Math\SIMDHeaders.h">
+      <Filter>Math</Filter>
+    </ClInclude>
   </ItemGroup>
   <ItemGroup>
     <ClCompile Include="ABI.cpp" />
-    <ClCompile Include="Log\StdioListener.cpp" />
     <ClCompile Include="CPUDetect.cpp" />
     <ClCompile Include="FakeCPUDetect.cpp" />
     <ClCompile Include="MipsCPUDetect.cpp" />
 
@@ -20,22 +20,10 @@
 #include "Common/Data/Convert/SmallDataConvert.h"
 #include "Common/Common.h"
 #include "Common/CPUDetect.h"
-
-#ifdef _M_SSE
-#include <emmintrin.h>
-#include <smmintrin.h>
-#endif
-
-#if PPSSPP_ARCH(ARM_NEON)
-#if defined(_MSC_VER) && PPSSPP_ARCH(ARM64)
-#include <arm64_neon.h>
-#else
-#include <arm_neon.h>
-#endif
-#endif
+#include "Common/Math/SIMDHeaders.h"
 
 void ConvertBGRA8888ToRGBA8888(u32 *dst, const u32 *src, u32 numPixels) {
-#ifdef _M_SSE
+#if PPSSPP_ARCH(SSE2)
 	const __m128i maskGA = _mm_set1_epi32(0xFF00FF00);
 
 	const __m128i *srcp = (const __m128i *)src;
@@ -76,47 +64,44 @@ void ConvertBGRA8888ToRGB888(u8 *dst, const u32 *src, u32 numPixels) {
 	}
 }
 
-#if defined(_M_SSE)
-#if defined(__GNUC__) || defined(__clang__) || defined(__INTEL_COMPILER)
-[[gnu::target("sse4.1")]]
-#endif
-static inline void ConvertRGBA8888ToRGBA5551_SSE4(__m128i *dstp, const __m128i *srcp, u32 sseChunks) {
-	const __m128i maskAG = _mm_set1_epi32(0x8000F800);
+#if PPSSPP_ARCH(SSE2)
+// fp64's improved SSE2 version, see #19751. SSE4 no longer required here.
+static inline void ConvertRGBA8888ToRGBA5551(__m128i *dstp, const __m128i *srcp, u32 sseChunks) {
 	const __m128i maskRB = _mm_set1_epi32(0x00F800F8);
-	const __m128i mask = _mm_set1_epi32(0x0000FFFF);
+	const __m128i maskGA = _mm_set1_epi32(0x8000F800);
+	const __m128i mulRB = _mm_set1_epi32(0x04000001);
+	const __m128i mulGA = _mm_set1_epi32(0x00400001);
 
 	for (u32 i = 0; i < sseChunks; i += 2) {
-		__m128i c1 = _mm_load_si128(&srcp[i + 0]);
-		__m128i c2 = _mm_load_si128(&srcp[i + 1]);
-		__m128i ag, rb;
-
-		ag = _mm_and_si128(c1, maskAG);
-		ag = _mm_or_si128(_mm_srli_epi32(ag, 16), _mm_srli_epi32(ag, 6));
-		rb = _mm_and_si128(c1, maskRB);
-		rb = _mm_or_si128(_mm_srli_epi32(rb, 3), _mm_srli_epi32(rb, 9));
-		c1 = _mm_and_si128(_mm_or_si128(ag, rb), mask);
-
-		ag = _mm_and_si128(c2, maskAG);
-		ag = _mm_or_si128(_mm_srli_epi32(ag, 16), _mm_srli_epi32(ag, 6));
-		rb = _mm_and_si128(c2, maskRB);
-		rb = _mm_or_si128(_mm_srli_epi32(rb, 3), _mm_srli_epi32(rb, 9));
-		c2 = _mm_and_si128(_mm_or_si128(ag, rb), mask);
-
-		_mm_store_si128(&dstp[i / 2], _mm_packus_epi32(c1, c2));
+		__m128i c0 = _mm_load_si128(&srcp[i + 0]);
+		__m128i c1 = _mm_load_si128(&srcp[i + 1]);
+
+		__m128i rb0 = _mm_and_si128(c0, maskRB);              // 00000000bbbbb00000000000rrrrr000 (each 32-bit lane)
+		__m128i rb1 = _mm_and_si128(c1, maskRB);              // 00000000bbbbb00000000000rrrrr000
+		__m128i ga0 = _mm_and_si128(c0, maskGA);              // a000000000000000ggggg00000000000
+		__m128i ga1 = _mm_and_si128(c1, maskGA);              // a000000000000000ggggg00000000000
+		rb0 = _mm_madd_epi16(_mm_srli_epi32(rb0,  3), mulRB); // 00000000000000000bbbbb00000rrrrr
+		rb1 = _mm_madd_epi16(_mm_srli_epi32(rb1,  3), mulRB); // 00000000000000000bbbbb00000rrrrr
+		ga0 = _mm_madd_epi16(_mm_srli_epi32(ga0, 11), mulGA); // 000000000000000000000a00000ggggg
+		ga1 = _mm_madd_epi16(_mm_srli_epi32(ga1, 11), mulGA); // 000000000000000000000a00000ggggg
+		__m128i rb = _mm_packs_epi32(rb0, rb1);
+		__m128i ga = _mm_slli_epi32(_mm_packs_epi32(ga0, ga1), 5);
+
+		_mm_store_si128(&dstp[i / 2], _mm_or_si128(ga, rb));
 	}
 }
 #endif
 
 void ConvertRGBA8888ToRGBA5551(u16 *dst, const u32 *src, u32 numPixels) {
-#if defined(_M_SSE)
+#if PPSSPP_ARCH(SSE2)
 	const __m128i *srcp = (const __m128i *)src;
 	__m128i *dstp = (__m128i *)dst;
 	u32 sseChunks = (numPixels / 4) & ~1;
 	// SSE 4.1 required for _mm_packus_epi32.
-	if (((intptr_t)src & 0xF) || ((intptr_t)dst & 0xF) || !cpu_info.bSSE4_1) {
+	if (((intptr_t)src & 0xF) || ((intptr_t)dst & 0xF)) {
 		sseChunks = 0;
 	} else {
-		ConvertRGBA8888ToRGBA5551_SSE4(dstp, srcp, sseChunks);
+		ConvertRGBA8888ToRGBA5551(dstp, srcp, sseChunks);
 	}
 
 	// The remainder starts right after those done via SSE.
@@ -129,11 +114,13 @@ void ConvertRGBA8888ToRGBA5551(u16 *dst, const u32 *src, u32 numPixels) {
 	}
 }
 
-#if defined(_M_SSE)
+#if PPSSPP_ARCH(SSE2)
+/*
 #if defined(__GNUC__) || defined(__clang__) || defined(__INTEL_COMPILER)
 [[gnu::target("sse4.1")]]
 #endif
-static inline void ConvertBGRA8888ToRGBA5551_SSE4(__m128i *dstp, const __m128i *srcp, u32 sseChunks) {
+*/
+static inline void ConvertBGRA8888ToRGBA5551(__m128i *dstp, const __m128i *srcp, u32 sseChunks) {
 	const __m128i maskAG = _mm_set1_epi32(0x8000F800);
 	const __m128i maskRB = _mm_set1_epi32(0x00F800F8);
 	const __m128i mask = _mm_set1_epi32(0x0000FFFF);
@@ -155,7 +142,14 @@ static inline void ConvertBGRA8888ToRGBA5551_SSE4(__m128i *dstp, const __m128i *
 		rb = _mm_or_si128(_mm_srli_epi32(rb, 19), _mm_slli_epi32(rb, 7));
 		c2 = _mm_and_si128(_mm_or_si128(ag, rb), mask);
 
+		// Unfortunately no good SSE2 way to do _mm_packus_epi32.
+		// We can approximate it with a few shuffles.
+#if 0
 		_mm_store_si128(&dstp[i / 2], _mm_packus_epi32(c1, c2));
+#else
+		// SSE2 path.
+		_mm_store_si128(&dstp[i / 2], _mm_packu2_epi32_SSE2(c1, c2));
+#endif
 	}
 }
 #endif
@@ -165,13 +159,11 @@ void ConvertBGRA8888ToRGBA5551(u16 *dst, const u32 *src, u32 numPixels) {
 	const __m128i *srcp = (const __m128i *)src;
 	__m128i *dstp = (__m128i *)dst;
 	u32 sseChunks = (numPixels / 4) & ~1;
-	// SSE 4.1 required for _mm_packus_epi32.
-	if (((intptr_t)src & 0xF) || ((intptr_t)dst & 0xF) || !cpu_info.bSSE4_1) {
+	if (((intptr_t)src & 0xF) || ((intptr_t)dst & 0xF)) {
 		sseChunks = 0;
 	} else {
-		ConvertBGRA8888ToRGBA5551_SSE4(dstp, srcp, sseChunks);
+		ConvertBGRA8888ToRGBA5551(dstp, srcp, sseChunks);
 	}
-
 	// The remainder starts right after those done via SSE.
 	u32 i = sseChunks * 4;
 #else
@@ -439,7 +431,7 @@ void ConvertRGB565ToBGRA8888(u32 *dst, const u16 *src, u32 numPixels) {
 }
 
 void ConvertRGBA4444ToABGR4444(u16 *dst, const u16 *src, u32 numPixels) {
-#ifdef _M_SSE
+#if PPSSPP_ARCH(SSE2)
 	const __m128i mask0040 = _mm_set1_epi16(0x00F0);
 
 	const __m128i *srcp = (const __m128i *)src;
@@ -505,7 +497,7 @@ void ConvertRGBA4444ToABGR4444(u16 *dst, const u16 *src, u32 numPixels) {
 }
 
 void ConvertRGBA5551ToABGR1555(u16 *dst, const u16 *src, u32 numPixels) {
-#ifdef _M_SSE
+#if PPSSPP_ARCH(SSE2)
 	const __m128i maskB = _mm_set1_epi16(0x003E);
 	const __m128i maskG = _mm_set1_epi16(0x07C0);
 
@@ -573,7 +565,7 @@ void ConvertRGBA5551ToABGR1555(u16 *dst, const u16 *src, u32 numPixels) {
 }
 
 void ConvertRGB565ToBGR565(u16 *dst, const u16 *src, u32 numPixels) {
-#ifdef _M_SSE
+#if PPSSPP_ARCH(SSE2)
 	const __m128i maskG = _mm_set1_epi16(0x07E0);
 
 	const __m128i *srcp = (const __m128i *)src;
 
@@ -6,17 +6,8 @@
 
 #include "Common/Common.h"
 #include "ppsspp_config.h"
+#include "Common/Math/SIMDHeaders.h"
 
-#ifdef _M_SSE
-#include <emmintrin.h>
-#endif
-#if PPSSPP_ARCH(ARM_NEON)
-#if defined(_MSC_VER) && PPSSPP_ARCH(ARM64)
-#include <arm64_neon.h>
-#else
-#include <arm_neon.h>
-#endif
-#endif
 
 extern const float one_over_255_x4[4];
 extern const float exactly_255_x4[4];
 
@@ -4,9 +4,6 @@
 
 #include <string>
 #include <stdexcept>
-#include <iostream>
-#include <iomanip>
-#include <sstream>
 #include <cstring>
 
 #include <zlib.h>
@@ -48,8 +45,7 @@ bool compress_string(const std::string& str, std::string *dest, int compressionl
 	deflateEnd(&zs);
 
 	if (ret != Z_STREAM_END) {          // an error occurred that was not EOF
-		std::ostringstream oss;
-		oss << "Exception during zlib compression: (" << ret << ") " << zs.msg;
+		ERROR_LOG(Log::IO, "Exception during zlib compression: (%d): %s", ret, zs.msg);
 		return false;
 	}
 
 
@@ -22,7 +22,6 @@
 #include <cstring>
 #include <cstdarg>
 #include <cstdint>
-
 #include <algorithm>
 #include <string>
 
 
@@ -4,6 +4,7 @@
 
 #include <cstdlib>
 #include <cstdio>
+#include <algorithm>  // for sort
 
 #include <inttypes.h>
 
@@ -12,7 +13,6 @@
 #include <strings.h>
 #endif
 
-#include <algorithm>
 #include <iostream>
 #include <fstream>
 #include <sstream>