bytecodealliance
diff --git a/‎.github/workflows/main.yml‎
Lines changed: 4 additions & 4 deletions b/‎.github/workflows/main.yml‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎Cargo.lock‎
Lines changed: 4 additions & 1 deletion b/‎Cargo.lock‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎cranelift/codegen/src/data_value.rs‎
Lines changed: 30 additions & 10 deletions b/‎cranelift/codegen/src/data_value.rs‎
Lines changed: 30 additions & 10 deletions
diff --git a/‎cranelift/codegen/src/isa/aarch64/inst/mod.rs‎
Lines changed: 19 additions & 43 deletions b/‎cranelift/codegen/src/isa/aarch64/inst/mod.rs‎
Lines changed: 19 additions & 43 deletions
diff --git a/‎cranelift/codegen/src/isa/aarch64/lower.isle‎
Lines changed: 27 additions & 43 deletions b/‎cranelift/codegen/src/isa/aarch64/lower.isle‎
Lines changed: 27 additions & 43 deletions
diff --git a/‎cranelift/codegen/src/isa/riscv64/lower.isle‎
Lines changed: 6 additions & 0 deletions b/‎cranelift/codegen/src/isa/riscv64/lower.isle‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎cranelift/codegen/src/isa/s390x/abi.rs‎
Lines changed: 1 addition & 1 deletion b/‎cranelift/codegen/src/isa/s390x/abi.rs‎
Lines changed: 1 addition & 1 deletion
@@ -80,7 +80,7 @@ jobs:
       with:
         submodules: true
     - run: |
-        git ls-files '*.h' '*.c' '*.cpp' | \
+        git ls-files '*.h' '*.c' '*.cpp' '*.hh' '*.cc' | \
           grep -v wasmtime-platform.h | \
           grep -v wasm.h | \
           xargs clang-format-18 --dry-run --Werror --verbose
@@ -895,9 +895,9 @@ jobs:
     - run: |
         rustup target add wasm32-wasip1 wasm32-unknown-unknown
         cd /tmp
-        curl -OL https://github.com/WebAssembly/wasi-sdk/releases/download/wasi-sdk-24/wasi-sdk-24.0-x86_64-linux.tar.gz
-        tar -xzf wasi-sdk-24.0-x86_64-linux.tar.gz
-        mv wasi-sdk-24.0-x86_64-linux wasi-sdk
+        curl -OL https://github.com/WebAssembly/wasi-sdk/releases/download/wasi-sdk-25/wasi-sdk-25.0-x86_64-linux.tar.gz
+        tar -xzf wasi-sdk-25.0-x86_64-linux.tar.gz
+        mv wasi-sdk-25.0-x86_64-linux wasi-sdk
     - run: |
         sudo apt-get update && sudo apt-get install -y gdb lldb-15 llvm
         # workaround for https://bugs.launchpad.net/ubuntu/+source/llvm-defaults/+bug/1972855
 
@@ -23,6 +23,8 @@ pub enum DataValue {
     F128(Ieee128),
     V128([u8; 16]),
     V64([u8; 8]),
+    V32([u8; 4]),
+    V16([u8; 2]),
 }
 
 impl PartialEq for DataValue {
@@ -51,6 +53,10 @@ impl PartialEq for DataValue {
             (V128(_), _) => false,
             (V64(l), V64(r)) => l == r,
             (V64(_), _) => false,
+            (V32(l), V32(r)) => l == r,
+            (V32(_), _) => false,
+            (V16(l), V16(r)) => l == r,
+            (V16(_), _) => false,
         }
     }
 }
@@ -83,13 +89,15 @@ impl DataValue {
             DataValue::F128(_) => types::F128,
             DataValue::V128(_) => types::I8X16, // A default type.
             DataValue::V64(_) => types::I8X8,   // A default type.
+            DataValue::V32(_) => types::I8X4,   // A default type.
+            DataValue::V16(_) => types::I8X2,   // A default type.
         }
     }
 
     /// Return true if the value is a vector (i.e. `DataValue::V128`).
     pub fn is_vector(&self) -> bool {
         match self {
-            DataValue::V128(_) | DataValue::V64(_) => true,
+            DataValue::V128(_) | DataValue::V64(_) | DataValue::V32(_) | DataValue::V16(_) => true,
             _ => false,
         }
     }
@@ -113,6 +121,14 @@ impl DataValue {
                 v.reverse();
                 DataValue::V64(v)
             }
+            DataValue::V32(mut v) => {
+                v.reverse();
+                DataValue::V32(v)
+            }
+            DataValue::V16(mut v) => {
+                v.reverse();
+                DataValue::V16(v)
+            }
         }
     }
 
@@ -152,6 +168,8 @@ impl DataValue {
             DataValue::F128(f) => dst[..16].copy_from_slice(&f.bits().to_ne_bytes()[..]),
             DataValue::V128(v) => dst[..16].copy_from_slice(&v[..]),
             DataValue::V64(v) => dst[..8].copy_from_slice(&v[..]),
+            DataValue::V32(v) => dst[..4].copy_from_slice(&v[..]),
+            DataValue::V16(v) => dst[..2].copy_from_slice(&v[..]),
         };
     }
 
@@ -197,15 +215,13 @@ impl DataValue {
             types::F128 => DataValue::F128(Ieee128::with_bits(u128::from_ne_bytes(
                 src[..16].try_into().unwrap(),
             ))),
-            _ if ty.is_vector() => {
-                if ty.bytes() == 16 {
-                    DataValue::V128(src[..16].try_into().unwrap())
-                } else if ty.bytes() == 8 {
-                    DataValue::V64(src[..8].try_into().unwrap())
-                } else {
-                    unimplemented!()
-                }
-            }
+            _ if ty.is_vector() => match ty.bytes() {
+                16 => DataValue::V128(src[..16].try_into().unwrap()),
+                8 => DataValue::V64(src[..8].try_into().unwrap()),
+                4 => DataValue::V32(src[..4].try_into().unwrap()),
+                2 => DataValue::V16(src[..2].try_into().unwrap()),
+                _ => unimplemented!(),
+            },
             _ => unimplemented!(),
         }
     }
@@ -324,6 +340,8 @@ build_conversion_impl!(Ieee64, F64, F64);
 build_conversion_impl!(Ieee128, F128, F128);
 build_conversion_impl!([u8; 16], V128, I8X16);
 build_conversion_impl!([u8; 8], V64, I8X8);
+build_conversion_impl!([u8; 4], V32, I8X4);
+build_conversion_impl!([u8; 2], V16, I8X2);
 impl From<Offset32> for DataValue {
     fn from(o: Offset32) -> Self {
         DataValue::from(Into::<i32>::into(o))
@@ -346,6 +364,8 @@ impl Display for DataValue {
             // Again, for syntax consistency, use ConstantData, which in this case displays as hex.
             DataValue::V128(dv) => write!(f, "{}", ConstantData::from(&dv[..])),
             DataValue::V64(dv) => write!(f, "{}", ConstantData::from(&dv[..])),
+            DataValue::V32(dv) => write!(f, "{}", ConstantData::from(&dv[..])),
+            DataValue::V16(dv) => write!(f, "{}", ConstantData::from(&dv[..])),
         }
     }
 }
 
@@ -10,6 +10,7 @@ use crate::{settings, CodegenError, CodegenResult};
 use crate::machinst::{PrettyPrint, Reg, RegClass, Writable};
 
 use alloc::vec::Vec;
+use core::slice;
 use smallvec::{smallvec, SmallVec};
 use std::fmt::Write;
 use std::string::{String, ToString};
@@ -231,31 +232,17 @@ impl Inst {
                 mem,
                 flags,
             },
-            F16 => Inst::FpuLoad16 {
-                rd: into_reg,
-                mem,
-                flags,
-            },
-            F32 => Inst::FpuLoad32 {
-                rd: into_reg,
-                mem,
-                flags,
-            },
-            F64 => Inst::FpuLoad64 {
-                rd: into_reg,
-                mem,
-                flags,
-            },
             _ => {
                 if ty.is_vector() || ty.is_float() {
                     let bits = ty_bits(ty);
                     let rd = into_reg;
 
-                    if bits == 128 {
-                        Inst::FpuLoad128 { rd, mem, flags }
-                    } else {
-                        assert_eq!(bits, 64);
-                        Inst::FpuLoad64 { rd, mem, flags }
+                    match bits {
+                        128 => Inst::FpuLoad128 { rd, mem, flags },
+                        64 => Inst::FpuLoad64 { rd, mem, flags },
+                        32 => Inst::FpuLoad32 { rd, mem, flags },
+                        16 => Inst::FpuLoad16 { rd, mem, flags },
+                        _ => unimplemented!("gen_load({})", ty),
                     }
                 } else {
                     unimplemented!("gen_load({})", ty);
@@ -287,31 +274,17 @@ impl Inst {
                 mem,
                 flags,
             },
-            F16 => Inst::FpuStore16 {
-                rd: from_reg,
-                mem,
-                flags,
-            },
-            F32 => Inst::FpuStore32 {
-                rd: from_reg,
-                mem,
-                flags,
-            },
-            F64 => Inst::FpuStore64 {
-                rd: from_reg,
-                mem,
-                flags,
-            },
             _ => {
                 if ty.is_vector() || ty.is_float() {
                     let bits = ty_bits(ty);
                     let rd = from_reg;
 
-                    if bits == 128 {
-                        Inst::FpuStore128 { rd, mem, flags }
-                    } else {
-                        assert_eq!(bits, 64);
-                        Inst::FpuStore64 { rd, mem, flags }
+                    match bits {
+                        128 => Inst::FpuStore128 { rd, mem, flags },
+                        64 => Inst::FpuStore64 { rd, mem, flags },
+                        32 => Inst::FpuStore32 { rd, mem, flags },
+                        16 => Inst::FpuStore16 { rd, mem, flags },
+                        _ => unimplemented!("gen_store({})", ty),
                     }
                 } else {
                     unimplemented!("gen_store({})", ty);
@@ -1123,9 +1096,12 @@ impl MachInst for Inst {
             F64 => Ok((&[RegClass::Float], &[F64])),
             F128 => Ok((&[RegClass::Float], &[F128])),
             I128 => Ok((&[RegClass::Int, RegClass::Int], &[I64, I64])),
-            _ if ty.is_vector() => {
-                assert!(ty.bits() <= 128);
-                Ok((&[RegClass::Float], &[I8X16]))
+            _ if ty.is_vector() && ty.bits() <= 128 => {
+                let types = &[types::I8X2, types::I8X4, types::I8X8, types::I8X16];
+                Ok((
+                    &[RegClass::Float],
+                    slice::from_ref(&types[ty.bytes().ilog2() as usize - 1]),
+                ))
             }
             _ if ty.is_dynamic_vector() => Ok((&[RegClass::Float], &[I8X16])),
             _ => Err(CodegenError::Unsupported(format!(
 
@@ -2546,34 +2546,26 @@
 (rule load_i64_aarch64_uload64 (lower
        (has_type $I64 (load flags address offset)))
       (aarch64_uload64 (amode $I64 address offset) flags))
-(rule (lower
-       (has_type $F16 (load flags address offset)))
-      (aarch64_fpuload16 (amode $F16 address offset) flags))
-(rule (lower
-       (has_type $F32 (load flags address offset)))
-      (aarch64_fpuload32 (amode $F32 address offset) flags))
-(rule (lower
-       (has_type $F64 (load flags address offset)))
-      (aarch64_fpuload64 (amode $F64 address offset) flags))
-(rule (lower
-       (has_type $F128 (load flags address offset)))
-      (aarch64_fpuload128 (amode $F128 address offset) flags))
 (rule (lower
        (has_type $I128 (load flags address offset)))
       (aarch64_loadp64 (pair_amode address offset) flags))
 (rule -1 (lower
-       (has_type (ty_vec64 _)
-                        (load flags address offset)))
-      (aarch64_fpuload64 (amode $F64 address offset) flags))
-(rule -3 (lower
-       (has_type (ty_vec128 _)
-                        (load flags address offset)))
-      (aarch64_fpuload128 (amode $I8X16 address offset) flags))
+       (has_type (ty_float_or_vec (ty_16 _)) (load flags address offset)))
+      (aarch64_fpuload16 (amode $F16 address offset) flags))
 (rule -2 (lower
+       (has_type (ty_float_or_vec (ty_32 _)) (load flags address offset)))
+      (aarch64_fpuload32 (amode $F32 address offset) flags))
+(rule -3 (lower
+       (has_type (ty_float_or_vec (ty_64 _)) (load flags address offset)))
+      (aarch64_fpuload64 (amode $F64 address offset) flags))
+(rule -4 (lower
+       (has_type (ty_float_or_vec (ty_128 _)) (load flags address offset)))
+      (aarch64_fpuload128 (amode $F128 address offset) flags))
+(rule -5 (lower
        (has_type (ty_dyn_vec64 _)
                         (load flags address offset)))
       (aarch64_fpuload64 (amode $F64 address offset) flags))
-(rule -4 (lower
+(rule -6 (lower
        (has_type (ty_dyn_vec128 _)
                         (load flags address offset)))
       (aarch64_fpuload128 (amode $I8X16 address offset) flags))
@@ -2666,23 +2658,6 @@
       (side_effect
        (aarch64_store32 (amode $I32 address offset) flags value)))
 
-(rule (lower
-       (store flags value @ (value_type $F16) address offset))
-      (side_effect
-       (aarch64_fpustore16 (amode $F16 address offset) flags value)))
-(rule (lower
-       (store flags value @ (value_type $F32) address offset))
-      (side_effect
-       (aarch64_fpustore32 (amode $F32 address offset) flags value)))
-(rule (lower
-       (store flags value @ (value_type $F64) address offset))
-      (side_effect
-       (aarch64_fpustore64 (amode $F64 address offset) flags value)))
-(rule (lower
-       (store flags value @ (value_type $F128) address offset))
-      (side_effect
-       (aarch64_fpustore128 (amode $F128 address offset) flags value)))
-
 (rule (lower
        (store flags value @ (value_type $I128) address offset))
       (side_effect
@@ -2691,18 +2666,27 @@
                          (value_regs_get value 1))))
 
 (rule -1 (lower
-       (store flags value @ (value_type (ty_vec64 _)) address offset))
+       (store flags value @ (value_type (ty_float_or_vec (ty_16 _))) address offset))
       (side_effect
-       (aarch64_fpustore64 (amode $F64 address offset) flags value)))
+       (aarch64_fpustore16 (amode $F16 address offset) flags value)))
+(rule -2 (lower
+       (store flags value @ (value_type (ty_float_or_vec (ty_32 _))) address offset))
+      (side_effect
+       (aarch64_fpustore32 (amode $F32 address offset) flags value)))
 (rule -3 (lower
-       (store flags value @ (value_type (ty_vec128 _)) address offset))
+       (store flags value @ (value_type (ty_float_or_vec (ty_64 _))) address offset))
       (side_effect
-       (aarch64_fpustore128 (amode $I8X16 address offset) flags value)))
-(rule -2 (lower
+       (aarch64_fpustore64 (amode $F64 address offset) flags value)))
+(rule -4 (lower
+       (store flags value @ (value_type (ty_float_or_vec (ty_128 _))) address offset))
+      (side_effect
+       (aarch64_fpustore128 (amode $F128 address offset) flags value)))
+
+(rule -5 (lower
        (store flags value @ (value_type (ty_dyn_vec64 _)) address offset))
       (side_effect
        (aarch64_fpustore64 (amode $F64 address offset) flags value)))
-(rule -4 (lower
+(rule -6 (lower
        (store flags value @ (value_type (ty_dyn_vec128 _)) address offset))
       (side_effect
        (aarch64_fpustore128 (amode $I8X16 address offset) flags value)))
 
@@ -2214,6 +2214,12 @@
         (amode AMode (amode addr offset)))
     (vec_store eew (VecAMode.UnitStride amode) src flags (unmasked) ty)))
 
+;; Avoid unnecessary moves to floating point registers for `F16` memory to memory copies when
+;; `Zfhmin` is unavailable.
+(rule 3 (lower (store store_flags (sinkable_load inst $F16 load_flags load_addr load_offset) store_addr store_offset))
+  (if-let false (has_zfhmin))
+  (rv_store (amode store_addr store_offset) (StoreOP.Sh) store_flags (gen_sunk_load inst (amode load_addr load_offset) (LoadOP.Lh) load_flags)))
+
 
 ;;;;;  Rules for `icmp`;;;;;;;;;
 
 
@@ -166,7 +166,7 @@ fn in_int_reg(ty: Type) -> bool {
 
 fn in_flt_reg(ty: Type) -> bool {
     match ty {
-        types::F32 | types::F64 => true,
+        types::F16 | types::F32 | types::F64 => true,
         _ => false,
     }
 }
Original file line number	Diff line number	Diff line change
`@@ -166,7 +166,7 @@ fn in_int_reg(ty: Type) -> bool {`
`166`	`166`
`167`	`167`	`fn in_flt_reg(ty: Type) -> bool {`
`168`	`168`	`match ty {`
`169`		`- types::F32 \| types::F64 => true,`
	`169`	`+ types::F16 \| types::F32 \| types::F64 => true,`
`170`	`170`	`_ => false,`
`171`	`171`	`}`
`172`	`172`	`}`