Manual formatting tweaks to Curve448 code

[openssl.git] / crypto / ec / curve448 / arch_arm_32 / f_impl.c
diff --git a/crypto/ec/curve448/arch_arm_32/f_impl.c b/crypto/ec/curve448/arch_arm_32/f_impl.c

index 0454bd6f294f54834593720bb0b200fe76be6e46..5956d6cebafa9c6d74e188ff8a63cf396389f755 100644 (file)
--- a/crypto/ec/curve448/arch_arm_32/f_impl.c
+++ b/crypto/ec/curve448/arch_arm_32/f_impl.c
@@ -1,103 +1,103 @@
-/* Copyright (c) 2014 Cryptography Research, Inc.
- * Released under the MIT License.  See LICENSE.txt for license information.
+/*
+ * Copyright 2017 The OpenSSL Project Authors. All Rights Reserved.
+ * Copyright 2014 Cryptography Research, Inc.
+ *
+ * Licensed under the OpenSSL license (the "License").  You may not use
+ * this file except in compliance with the License.  You can obtain a copy
+ * in the file LICENSE in the source distribution or at
+ * https://www.openssl.org/source/license.html
+ *
+ * Originally written by Mike Hamburg
   */
  
  #include "f_field.h"
  
   */
  
  #include "f_field.h"
  
-static inline void __attribute__((gnu_inline,always_inline))
-smlal (
-    uint64_t *acc,
-    const uint32_t a,
-    const uint32_t b
-) {
+static inline void __attribute__ ((gnu_inline, always_inline))
+    smlal(uint64_t *acc, const uint32_t a, const uint32_t b)
+{
  
  #ifdef  __ARMEL__
  
  #ifdef  __ARMEL__
-    uint32_t lo = *acc, hi = (*acc)>>32;
-    
+    uint32_t lo = *acc, hi = (*acc) >> 32;
+
      __asm__ __volatile__ ("smlal %[lo], %[hi], %[a], %[b]"
      __asm__ __volatile__ ("smlal %[lo], %[hi], %[a], %[b]"
-        : [lo]"+&r"(lo), [hi]"+&r"(hi)
-        : [a]"r"(a), [b]"r"(b));
-    
-    *acc = lo + (((uint64_t)hi)<<32);
+                          : [lo]"+&r"(lo), [hi]"+&r"(hi)
+                          : [a]"r"(a), [b]"r"(b));
+
+
+    *acc = lo + (((uint64_t)hi) << 32);
  #else
  #else
-    *acc += (int64_t)(int32_t)a * (int64_t)(int32_t)b;
+    *acc += (int64_t)(int32_t)a *(int64_t)(int32_t)b;
  #endif
  }
  
  #endif
  }
  
-static inline void __attribute__((gnu_inline,always_inline))
-smlal2 (
-    uint64_t *acc,
-    const uint32_t a,
-    const uint32_t b
-) {
+static inline void __attribute__ ((gnu_inline, always_inline))
+    smlal2(uint64_t *acc, const uint32_t a, const uint32_t b)
+{
  #ifdef __ARMEL__
  #ifdef __ARMEL__
-    uint32_t lo = *acc, hi = (*acc)>>32;
-    
+    uint32_t lo = *acc, hi = (*acc) >> 32;
+
      __asm__ __volatile__ ("smlal %[lo], %[hi], %[a], %[b]"
      __asm__ __volatile__ ("smlal %[lo], %[hi], %[a], %[b]"
-        : [lo]"+&r"(lo), [hi]"+&r"(hi)
-        : [a]"r"(a), [b]"r"(2*b));
-    
-    *acc = lo + (((uint64_t)hi)<<32);
+                          : [lo]"+&r"(lo), [hi]"+&r"(hi)
+                          : [a]"r"(a), [b]"r"(2 * b));
+
+
+
+    *acc = lo + (((uint64_t)hi) << 32);
  #else
  #else
-    *acc += (int64_t)(int32_t)a * (int64_t)(int32_t)(b * 2);
+    *acc += (int64_t)(int32_t)a *(int64_t)(int32_t)(b * 2);
  #endif
  }
  
  #endif
  }
  
-static inline void __attribute__((gnu_inline,always_inline))
-smull (
-    uint64_t *acc,
-    const uint32_t a,
-    const uint32_t b
-) {
+static inline void __attribute__ ((gnu_inline, always_inline))
+    smull(uint64_t *acc, const uint32_t a, const uint32_t b)
+{
  #ifdef __ARMEL__
      uint32_t lo, hi;
  #ifdef __ARMEL__
      uint32_t lo, hi;
-    
+
      __asm__ __volatile__ ("smull %[lo], %[hi], %[a], %[b]"
      __asm__ __volatile__ ("smull %[lo], %[hi], %[a], %[b]"
-        : [lo]"=&r"(lo), [hi]"=&r"(hi)
-        : [a]"r"(a), [b]"r"(b));
-    
-    *acc = lo + (((uint64_t)hi)<<32);
+                          : [lo]"=&r"(lo), [hi]"=&r"(hi)
+                          : [a]"r"(a), [b]"r"(b));
+
+    *acc = lo + (((uint64_t)hi) << 32);
  #else
  #else
-    *acc = (int64_t)(int32_t)a * (int64_t)(int32_t)b;
+    *acc = (int64_t)(int32_t)a *(int64_t)(int32_t)b;
  #endif
  }
  
  #endif
  }
  
-static inline void __attribute__((gnu_inline,always_inline))
-smull2 (
-    uint64_t *acc,
-    const uint32_t a,
-    const uint32_t b
-) {
+static inline void __attribute__ ((gnu_inline, always_inline))
+    smull2(uint64_t *acc, const uint32_t a, const uint32_t b)
+{
  #ifdef __ARMEL__
      uint32_t lo, hi;
  #ifdef __ARMEL__
      uint32_t lo, hi;
-    
+
      __asm__ /*__volatile__*/ ("smull %[lo], %[hi], %[a], %[b]"
      __asm__ /*__volatile__*/ ("smull %[lo], %[hi], %[a], %[b]"
-        : [lo]"=&r"(lo), [hi]"=&r"(hi)
-        : [a]"r"(a), [b]"r"(2*b));
-    
-    *acc = lo + (((uint64_t)hi)<<32);
+                              : [lo]"=&r"(lo), [hi]"=&r"(hi)
+                              : [a]"r"(a), [b]"r"(2*b));
+
+    *acc = lo + (((uint64_t)hi) << 32);
  #else
  #else
-    *acc = (int64_t)(int32_t)a * (int64_t)(int32_t)(b * 2);
+    *acc = (int64_t)(int32_t)a *(int64_t)(int32_t)(b * 2);
  #endif
  }
  
  #endif
  }
  
-void gf_mul (gf_s *__restrict__ cs, const gf as, const gf bs) {
-    
+void gf_mul(gf_s * __restrict__ cs, const gf as, const gf bs)
+{
+
      const uint32_t *a = as->limb, *b = bs->limb;
      uint32_t *c = cs->limb;
  
      uint64_t accum0 = 0, accum1 = 0, accum2, accum3, accumC0, accumC1;
      const uint32_t *a = as->limb, *b = bs->limb;
      uint32_t *c = cs->limb;
  
      uint64_t accum0 = 0, accum1 = 0, accum2, accum3, accumC0, accumC1;
-    uint32_t mask = (1<<28) - 1;  
+    uint32_t mask = (1 << 28) - 1;
  
      uint32_t aa[8], bm[8];
  
      int i;
  
      uint32_t aa[8], bm[8];
  
      int i;
-    for (i=0; i<8; i++) {
-        aa[i] = a[i] + a[i+8];
-        bm[i] = b[i] - b[i+8];
+    for (i = 0; i < 8; i++) {
+        aa[i] = a[i] + a[i + 8];
+        bm[i] = b[i] - b[i + 8];
      }
  
      }
  
-    uint32_t ax,bx;
+    uint32_t ax, bx;
      {
          /* t^3 terms */
          smull(&accum1, ax = aa[1], bx = b[15]);
      {
          /* t^3 terms */
          smull(&accum1, ax = aa[1], bx = b[15]);
@@ -113,15 +113,15 @@ void gf_mul (gf_s *__restrict__ cs, const gf as, const gf bs) {
          smlal(&accum1, ax, bx = b[10]);
          smlal(&accum3, ax = aa[7], bx);
          smlal(&accum1, ax, bx = b[9]);
          smlal(&accum1, ax, bx = b[10]);
          smlal(&accum3, ax = aa[7], bx);
          smlal(&accum1, ax, bx = b[9]);
-        
+
          accum0 = accum1;
          accum2 = accum3;
          accum0 = accum1;
          accum2 = accum3;
-        
+
          /* t^2 terms */
          smlal(&accum2, ax = aa[0], bx);
          smlal(&accum0, ax, bx = b[8]);
          smlal(&accum2, ax = aa[1], bx);
          /* t^2 terms */
          smlal(&accum2, ax = aa[0], bx);
          smlal(&accum0, ax, bx = b[8]);
          smlal(&accum2, ax = aa[1], bx);
-        
+
          smlal(&accum0, ax = a[9], bx = b[7]);
          smlal(&accum2, ax = a[10], bx);
          smlal(&accum0, ax, bx = b[6]);
          smlal(&accum0, ax = a[9], bx = b[7]);
          smlal(&accum2, ax = a[10], bx);
          smlal(&accum0, ax, bx = b[6]);
@@ -135,14 +135,14 @@ void gf_mul (gf_s *__restrict__ cs, const gf as, const gf bs) {
          smlal(&accum0, ax, bx = b[2]);
          smlal(&accum2, ax = a[15], bx);
          smlal(&accum0, ax, bx = b[1]);
          smlal(&accum0, ax, bx = b[2]);
          smlal(&accum2, ax = a[15], bx);
          smlal(&accum0, ax, bx = b[1]);
-        
+
          /* t terms */
          accum1 += accum0;
          accum3 += accum2;
          smlal(&accum3, ax = a[8], bx);
          smlal(&accum1, ax, bx = b[0]);
          smlal(&accum3, ax = a[9], bx);
          /* t terms */
          accum1 += accum0;
          accum3 += accum2;
          smlal(&accum3, ax = a[8], bx);
          smlal(&accum1, ax, bx = b[0]);
          smlal(&accum3, ax = a[9], bx);
-        
+
          smlal(&accum1, ax = a[1], bx = bm[7]);
          smlal(&accum3, ax = a[2], bx);
          smlal(&accum1, ax, bx = bm[6]);
          smlal(&accum1, ax = a[1], bx = bm[7]);
          smlal(&accum3, ax = a[2], bx);
          smlal(&accum1, ax, bx = bm[6]);
@@ -156,20 +156,20 @@ void gf_mul (gf_s *__restrict__ cs, const gf as, const gf bs) {
          smlal(&accum1, ax, bx = bm[2]);
          smlal(&accum3, ax = a[7], bx);
          smlal(&accum1, ax, bx = bm[1]);
          smlal(&accum1, ax, bx = bm[2]);
          smlal(&accum3, ax = a[7], bx);
          smlal(&accum1, ax, bx = bm[1]);
-        
+
          /* 1 terms */
          smlal(&accum2, ax = a[0], bx);
          smlal(&accum0, ax, bx = bm[0]);
          smlal(&accum2, ax = a[1], bx);
          /* 1 terms */
          smlal(&accum2, ax = a[0], bx);
          smlal(&accum0, ax, bx = bm[0]);
          smlal(&accum2, ax = a[1], bx);
-        
+
          accum2 += accum0 >> 28;
          accum3 += accum1 >> 28;
          accum2 += accum0 >> 28;
          accum3 += accum1 >> 28;
-        
+
          c[0] = ((uint32_t)(accum0)) & mask;
          c[1] = ((uint32_t)(accum2)) & mask;
          c[8] = ((uint32_t)(accum1)) & mask;
          c[9] = ((uint32_t)(accum3)) & mask;
          c[0] = ((uint32_t)(accum0)) & mask;
          c[1] = ((uint32_t)(accum2)) & mask;
          c[8] = ((uint32_t)(accum1)) & mask;
          c[9] = ((uint32_t)(accum3)) & mask;
-        
+
          accumC0 = accum2 >> 28;
          accumC1 = accum3 >> 28;
      }
          accumC0 = accum2 >> 28;
          accumC1 = accum3 >> 28;
      }
@@ -184,10 +184,10 @@ void gf_mul (gf_s *__restrict__ cs, const gf as, const gf bs) {
          smlal(&accum1, ax, bx = b[12]);
          smlal(&accum3, ax = aa[7], bx);
          smlal(&accum1, ax, bx = b[11]);
          smlal(&accum1, ax, bx = b[12]);
          smlal(&accum3, ax = aa[7], bx);
          smlal(&accum1, ax, bx = b[11]);
-        
+
          accum0 = accum1;
          accum2 = accum3;
          accum0 = accum1;
          accum2 = accum3;
-        
+
          /* t^2 terms */
          smlal(&accum2, ax = aa[0], bx);
          smlal(&accum0, ax, bx = b[10]);
          /* t^2 terms */
          smlal(&accum2, ax = aa[0], bx);
          smlal(&accum0, ax, bx = b[10]);
@@ -196,7 +196,7 @@ void gf_mul (gf_s *__restrict__ cs, const gf as, const gf bs) {
          smlal(&accum2, ax = aa[2], bx);
          smlal(&accum0, ax, bx = b[8]);
          smlal(&accum2, ax = aa[3], bx);
          smlal(&accum2, ax = aa[2], bx);
          smlal(&accum0, ax, bx = b[8]);
          smlal(&accum2, ax = aa[3], bx);
-        
+
          smlal(&accum0, ax = a[11], bx = b[7]);
          smlal(&accum2, ax = a[12], bx);
          smlal(&accum0, ax, bx = b[6]);
          smlal(&accum0, ax = a[11], bx = b[7]);
          smlal(&accum2, ax = a[12], bx);
          smlal(&accum0, ax, bx = b[6]);
@@ -206,7 +206,7 @@ void gf_mul (gf_s *__restrict__ cs, const gf as, const gf bs) {
          smlal(&accum0, ax, bx = b[4]);
          smlal(&accum2, ax = a[15], bx);
          smlal(&accum0, ax, bx = b[3]);
          smlal(&accum0, ax, bx = b[4]);
          smlal(&accum2, ax = a[15], bx);
          smlal(&accum0, ax, bx = b[3]);
-        
+
          /* t terms */
          accum1 += accum0;
          accum3 += accum2;
          /* t terms */
          accum1 += accum0;
          accum3 += accum2;
@@ -217,7 +217,7 @@ void gf_mul (gf_s *__restrict__ cs, const gf as, const gf bs) {
          smlal(&accum3, ax = a[10], bx);
          smlal(&accum1, ax, bx = b[0]);
          smlal(&accum3, ax = a[11], bx);
          smlal(&accum3, ax = a[10], bx);
          smlal(&accum1, ax, bx = b[0]);
          smlal(&accum3, ax = a[11], bx);
-        
+
          smlal(&accum1, ax = a[3], bx = bm[7]);
          smlal(&accum3, ax = a[4], bx);
          smlal(&accum1, ax, bx = bm[6]);
          smlal(&accum1, ax = a[3], bx = bm[7]);
          smlal(&accum3, ax = a[4], bx);
          smlal(&accum1, ax, bx = bm[6]);
@@ -227,7 +227,7 @@ void gf_mul (gf_s *__restrict__ cs, const gf as, const gf bs) {
          smlal(&accum1, ax, bx = bm[4]);
          smlal(&accum3, ax = a[7], bx);
          smlal(&accum1, ax, bx = bm[3]);
          smlal(&accum1, ax, bx = bm[4]);
          smlal(&accum3, ax = a[7], bx);
          smlal(&accum1, ax, bx = bm[3]);
-        
+
          /* 1 terms */
          smlal(&accum2, ax = a[0], bx);
          smlal(&accum0, ax, bx = bm[2]);
          /* 1 terms */
          smlal(&accum2, ax = a[0], bx);
          smlal(&accum0, ax, bx = bm[2]);
@@ -236,34 +236,34 @@ void gf_mul (gf_s *__restrict__ cs, const gf as, const gf bs) {
          smlal(&accum2, ax = a[2], bx);
          smlal(&accum0, ax, bx = bm[0]);
          smlal(&accum2, ax = a[3], bx);
          smlal(&accum2, ax = a[2], bx);
          smlal(&accum0, ax, bx = bm[0]);
          smlal(&accum2, ax = a[3], bx);
-        
+
          accum0 += accumC0;
          accum1 += accumC1;
          accum2 += accum0 >> 28;
          accum3 += accum1 >> 28;
          accum0 += accumC0;
          accum1 += accumC1;
          accum2 += accum0 >> 28;
          accum3 += accum1 >> 28;
-        
+
          c[2] = ((uint32_t)(accum0)) & mask;
          c[3] = ((uint32_t)(accum2)) & mask;
          c[10] = ((uint32_t)(accum1)) & mask;
          c[11] = ((uint32_t)(accum3)) & mask;
          c[2] = ((uint32_t)(accum0)) & mask;
          c[3] = ((uint32_t)(accum2)) & mask;
          c[10] = ((uint32_t)(accum1)) & mask;
          c[11] = ((uint32_t)(accum3)) & mask;
-        
+
          accumC0 = accum2 >> 28;
          accumC1 = accum3 >> 28;
      }
      {
          accumC0 = accum2 >> 28;
          accumC1 = accum3 >> 28;
      }
      {
-        
+
          /* t^3 terms */
          smull(&accum1, ax = aa[5], bx = b[15]);
          smull(&accum3, ax = aa[6], bx);
          smlal(&accum1, ax, bx = b[14]);
          smlal(&accum3, ax = aa[7], bx);
          smlal(&accum1, ax, bx = b[13]);
          /* t^3 terms */
          smull(&accum1, ax = aa[5], bx = b[15]);
          smull(&accum3, ax = aa[6], bx);
          smlal(&accum1, ax, bx = b[14]);
          smlal(&accum3, ax = aa[7], bx);
          smlal(&accum1, ax, bx = b[13]);
-        
+
          accum0 = accum1;
          accum2 = accum3;
          accum0 = accum1;
          accum2 = accum3;
-        
+
          /* t^2 terms */
          /* t^2 terms */
-        
+
          smlal(&accum2, ax = aa[0], bx);
          smlal(&accum0, ax, bx = b[12]);
          smlal(&accum2, ax = aa[1], bx);
          smlal(&accum2, ax = aa[0], bx);
          smlal(&accum0, ax, bx = b[12]);
          smlal(&accum2, ax = aa[1], bx);
@@ -275,18 +275,17 @@ void gf_mul (gf_s *__restrict__ cs, const gf as, const gf bs) {
          smlal(&accum2, ax = aa[4], bx);
          smlal(&accum0, ax, bx = b[8]);
          smlal(&accum2, ax = aa[5], bx);
          smlal(&accum2, ax = aa[4], bx);
          smlal(&accum0, ax, bx = b[8]);
          smlal(&accum2, ax = aa[5], bx);
-        
-        
+
          smlal(&accum0, ax = a[13], bx = b[7]);
          smlal(&accum2, ax = a[14], bx);
          smlal(&accum0, ax, bx = b[6]);
          smlal(&accum2, ax = a[15], bx);
          smlal(&accum0, ax, bx = b[5]);
          smlal(&accum0, ax = a[13], bx = b[7]);
          smlal(&accum2, ax = a[14], bx);
          smlal(&accum0, ax, bx = b[6]);
          smlal(&accum2, ax = a[15], bx);
          smlal(&accum0, ax, bx = b[5]);
-        
+
          /* t terms */
          accum1 += accum0;
          accum3 += accum2;
          /* t terms */
          accum1 += accum0;
          accum3 += accum2;
-        
+
          smlal(&accum3, ax = a[8], bx);
          smlal(&accum1, ax, bx = b[4]);
          smlal(&accum3, ax = a[9], bx);
          smlal(&accum3, ax = a[8], bx);
          smlal(&accum1, ax, bx = b[4]);
          smlal(&accum3, ax = a[9], bx);
@@ -298,16 +297,15 @@ void gf_mul (gf_s *__restrict__ cs, const gf as, const gf bs) {
          smlal(&accum3, ax = a[12], bx);
          smlal(&accum1, ax, bx = b[0]);
          smlal(&accum3, ax = a[13], bx);
          smlal(&accum3, ax = a[12], bx);
          smlal(&accum1, ax, bx = b[0]);
          smlal(&accum3, ax = a[13], bx);
-        
-        
+
          smlal(&accum1, ax = a[5], bx = bm[7]);
          smlal(&accum3, ax = a[6], bx);
          smlal(&accum1, ax, bx = bm[6]);
          smlal(&accum3, ax = a[7], bx);
          smlal(&accum1, ax, bx = bm[5]);
          smlal(&accum1, ax = a[5], bx = bm[7]);
          smlal(&accum3, ax = a[6], bx);
          smlal(&accum1, ax, bx = bm[6]);
          smlal(&accum3, ax = a[7], bx);
          smlal(&accum1, ax, bx = bm[5]);
-        
+
          /* 1 terms */
          /* 1 terms */
-        
+
          smlal(&accum2, ax = a[0], bx);
          smlal(&accum0, ax, bx = bm[4]);
          smlal(&accum2, ax = a[1], bx);
          smlal(&accum2, ax = a[0], bx);
          smlal(&accum0, ax, bx = bm[4]);
          smlal(&accum2, ax = a[1], bx);
@@ -319,28 +317,28 @@ void gf_mul (gf_s *__restrict__ cs, const gf as, const gf bs) {
          smlal(&accum2, ax = a[4], bx);
          smlal(&accum0, ax, bx = bm[0]);
          smlal(&accum2, ax = a[5], bx);
          smlal(&accum2, ax = a[4], bx);
          smlal(&accum0, ax, bx = bm[0]);
          smlal(&accum2, ax = a[5], bx);
-        
+
          accum0 += accumC0;
          accum1 += accumC1;
          accum2 += accum0 >> 28;
          accum3 += accum1 >> 28;
          accum0 += accumC0;
          accum1 += accumC1;
          accum2 += accum0 >> 28;
          accum3 += accum1 >> 28;
-        
+
          c[4] = ((uint32_t)(accum0)) & mask;
          c[5] = ((uint32_t)(accum2)) & mask;
          c[12] = ((uint32_t)(accum1)) & mask;
          c[13] = ((uint32_t)(accum3)) & mask;
          c[4] = ((uint32_t)(accum0)) & mask;
          c[5] = ((uint32_t)(accum2)) & mask;
          c[12] = ((uint32_t)(accum1)) & mask;
          c[13] = ((uint32_t)(accum3)) & mask;
-        
+
          accumC0 = accum2 >> 28;
          accumC1 = accum3 >> 28;
      }
      {
          accumC0 = accum2 >> 28;
          accumC1 = accum3 >> 28;
      }
      {
-        
+
          /* t^3 terms */
          smull(&accum1, ax = aa[7], bx = b[15]);
          accum0 = accum1;
          /* t^3 terms */
          smull(&accum1, ax = aa[7], bx = b[15]);
          accum0 = accum1;
-        
+
          /* t^2 terms */
          /* t^2 terms */
-        
+
          smull(&accum2, ax = aa[0], bx);
          smlal(&accum0, ax, bx = b[14]);
          smlal(&accum2, ax = aa[1], bx);
          smull(&accum2, ax = aa[0], bx);
          smlal(&accum0, ax, bx = b[14]);
          smlal(&accum2, ax = aa[1], bx);
@@ -356,14 +354,13 @@ void gf_mul (gf_s *__restrict__ cs, const gf as, const gf bs) {
          smlal(&accum2, ax = aa[6], bx);
          smlal(&accum0, ax, bx = b[8]);
          smlal(&accum2, ax = aa[7], bx);
          smlal(&accum2, ax = aa[6], bx);
          smlal(&accum0, ax, bx = b[8]);
          smlal(&accum2, ax = aa[7], bx);
-        
-        
+
          smlal(&accum0, ax = a[15], bx = b[7]);
          smlal(&accum0, ax = a[15], bx = b[7]);
-        
+
          /* t terms */
          accum1 += accum0;
          accum3 = accum2;
          /* t terms */
          accum1 += accum0;
          accum3 = accum2;
-        
+
          smlal(&accum3, ax = a[8], bx);
          smlal(&accum1, ax, bx = b[6]);
          smlal(&accum3, ax = a[9], bx);
          smlal(&accum3, ax = a[8], bx);
          smlal(&accum1, ax, bx = b[6]);
          smlal(&accum3, ax = a[9], bx);
@@ -379,12 +376,11 @@ void gf_mul (gf_s *__restrict__ cs, const gf as, const gf bs) {
          smlal(&accum3, ax = a[14], bx);
          smlal(&accum1, ax, bx = b[0]);
          smlal(&accum3, ax = a[15], bx);
          smlal(&accum3, ax = a[14], bx);
          smlal(&accum1, ax, bx = b[0]);
          smlal(&accum3, ax = a[15], bx);
-        
-        
+
          smlal(&accum1, ax = a[7], bx = bm[7]);
          smlal(&accum1, ax = a[7], bx = bm[7]);
-        
+
          /* 1 terms */
          /* 1 terms */
-        
+
          smlal(&accum2, ax = a[0], bx);
          smlal(&accum0, ax, bx = bm[6]);
          smlal(&accum2, ax = a[1], bx);
          smlal(&accum2, ax = a[0], bx);
          smlal(&accum0, ax, bx = bm[6]);
          smlal(&accum2, ax = a[1], bx);
@@ -400,17 +396,17 @@ void gf_mul (gf_s *__restrict__ cs, const gf as, const gf bs) {
          smlal(&accum2, ax = a[6], bx);
          smlal(&accum0, ax, bx = bm[0]);
          smlal(&accum2, ax = a[7], bx);
          smlal(&accum2, ax = a[6], bx);
          smlal(&accum0, ax, bx = bm[0]);
          smlal(&accum2, ax = a[7], bx);
-        
+
          accum0 += accumC0;
          accum1 += accumC1;
          accum2 += accum0 >> 28;
          accum3 += accum1 >> 28;
          accum0 += accumC0;
          accum1 += accumC1;
          accum2 += accum0 >> 28;
          accum3 += accum1 >> 28;
-        
+
          c[6] = ((uint32_t)(accum0)) & mask;
          c[7] = ((uint32_t)(accum2)) & mask;
          c[14] = ((uint32_t)(accum1)) & mask;
          c[15] = ((uint32_t)(accum3)) & mask;
          c[6] = ((uint32_t)(accum0)) & mask;
          c[7] = ((uint32_t)(accum2)) & mask;
          c[14] = ((uint32_t)(accum1)) & mask;
          c[15] = ((uint32_t)(accum3)) & mask;
-        
+
          accum0 = accum2 >> 28;
          accum1 = accum3 >> 28;
      }
          accum0 = accum2 >> 28;
          accum1 = accum3 >> 28;
      }
@@ -420,28 +416,29 @@ void gf_mul (gf_s *__restrict__ cs, const gf as, const gf bs) {
      accum1 += c[0];
      c[8] = ((uint32_t)(accum0)) & mask;
      c[0] = ((uint32_t)(accum1)) & mask;
      accum1 += c[0];
      c[8] = ((uint32_t)(accum0)) & mask;
      c[0] = ((uint32_t)(accum1)) & mask;
-    
+
      accum0 >>= 28;
      accum1 >>= 28;
      c[9] += ((uint32_t)(accum0));
      c[1] += ((uint32_t)(accum1));
  }
  
      accum0 >>= 28;
      accum1 >>= 28;
      c[9] += ((uint32_t)(accum0));
      c[1] += ((uint32_t)(accum1));
  }
  
-void gf_sqr (gf_s *__restrict__ cs, const gf as) {
+void gf_sqr(gf_s * __restrict__ cs, const gf as)
+{
      const uint32_t *a = as->limb;
      uint32_t *c = cs->limb;
  
      uint64_t accum0 = 0, accum1 = 0, accum2, accum3, accumC0, accumC1, tmp;
      const uint32_t *a = as->limb;
      uint32_t *c = cs->limb;
  
      uint64_t accum0 = 0, accum1 = 0, accum2, accum3, accumC0, accumC1, tmp;
-    uint32_t mask = (1<<28) - 1;  
+    uint32_t mask = (1 << 28) - 1;
  
      uint32_t bm[8];
  
      uint32_t bm[8];
-    
+
      int i;
      int i;
-    for (i=0; i<8; i++) {
-        bm[i] = a[i] - a[i+8];
+    for (i = 0; i < 8; i++) {
+        bm[i] = a[i] - a[i + 8];
      }
  
      }
  
-    uint32_t ax,bx;
+    uint32_t ax, bx;
      {
          /* t^3 terms */
          smull2(&accum1, ax = a[9], bx = a[15]);
      {
          /* t^3 terms */
          smull2(&accum1, ax = a[9], bx = a[15]);
@@ -451,14 +448,14 @@ void gf_sqr (gf_s *__restrict__ cs, const gf as) {
          smlal2(&accum1, ax, bx = a[13]);
          smlal2(&accum3, ax = a[12], bx);
          smlal(&accum1, ax, ax);
          smlal2(&accum1, ax, bx = a[13]);
          smlal2(&accum3, ax = a[12], bx);
          smlal(&accum1, ax, ax);
-        
+
          accum0 = accum1;
          accum2 = accum3;
          accum0 = accum1;
          accum2 = accum3;
-        
+
          /* t^2 terms */
          smlal2(&accum2, ax = a[8], a[9]);
          smlal(&accum0, ax, ax);
          /* t^2 terms */
          smlal2(&accum2, ax = a[8], a[9]);
          smlal(&accum0, ax, ax);
-        
+
          smlal2(&accum0, ax = a[1], bx = a[7]);
          smlal2(&accum2, ax = a[2], bx);
          smlal2(&accum0, ax, bx = a[6]);
          smlal2(&accum0, ax = a[1], bx = a[7]);
          smlal2(&accum2, ax = a[2], bx);
          smlal2(&accum0, ax, bx = a[6]);
@@ -466,18 +463,18 @@ void gf_sqr (gf_s *__restrict__ cs, const gf as) {
          smlal2(&accum0, ax, bx = a[5]);
          smlal2(&accum2, ax = a[4], bx);
          smlal(&accum0, ax, ax);
          smlal2(&accum0, ax, bx = a[5]);
          smlal2(&accum2, ax = a[4], bx);
          smlal(&accum0, ax, ax);
-        
+
          /* t terms */
          accum1 += accum0;
          accum3 += accum2;
          smlal2(&accum3, ax = a[0], bx = a[1]);
          smlal(&accum1, ax, ax);
          /* t terms */
          accum1 += accum0;
          accum3 += accum2;
          smlal2(&accum3, ax = a[0], bx = a[1]);
          smlal(&accum1, ax, ax);
-        
+
          accum1 = -accum1;
          accum3 = -accum3;
          accum2 = -accum2;
          accum0 = -accum0;
          accum1 = -accum1;
          accum3 = -accum3;
          accum2 = -accum2;
          accum0 = -accum0;
-        
+
          smlal2(&accum1, ax = bm[1], bx = bm[7]);
          smlal2(&accum3, ax = bm[2], bx);
          smlal2(&accum1, ax, bx = bm[6]);
          smlal2(&accum1, ax = bm[1], bx = bm[7]);
          smlal2(&accum3, ax = bm[2], bx);
          smlal2(&accum1, ax, bx = bm[6]);
@@ -485,22 +482,26 @@ void gf_sqr (gf_s *__restrict__ cs, const gf as) {
          smlal2(&accum1, ax, bx = bm[5]);
          smlal2(&accum3, ax = bm[4], bx);
          smlal(&accum1, ax, ax);
          smlal2(&accum1, ax, bx = bm[5]);
          smlal2(&accum3, ax = bm[4], bx);
          smlal(&accum1, ax, ax);
-        
+
          /* 1 terms */
          smlal2(&accum2, ax = bm[0], bx = bm[1]);
          smlal(&accum0, ax, ax);
          /* 1 terms */
          smlal2(&accum2, ax = bm[0], bx = bm[1]);
          smlal(&accum0, ax, ax);
-        
-        tmp = -accum3; accum3 = tmp-accum2; accum2 = tmp;
-        tmp = -accum1; accum1 = tmp-accum0; accum0 = tmp;
-        
+
+        tmp = -accum3;
+        accum3 = tmp - accum2;
+        accum2 = tmp;
+        tmp = -accum1;
+        accum1 = tmp - accum0;
+        accum0 = tmp;
+
          accum2 += accum0 >> 28;
          accum3 += accum1 >> 28;
          accum2 += accum0 >> 28;
          accum3 += accum1 >> 28;
-        
+
          c[0] = ((uint32_t)(accum0)) & mask;
          c[1] = ((uint32_t)(accum2)) & mask;
          c[8] = ((uint32_t)(accum1)) & mask;
          c[9] = ((uint32_t)(accum3)) & mask;
          c[0] = ((uint32_t)(accum0)) & mask;
          c[1] = ((uint32_t)(accum2)) & mask;
          c[8] = ((uint32_t)(accum1)) & mask;
          c[9] = ((uint32_t)(accum3)) & mask;
-        
+
          accumC0 = accum2 >> 28;
          accumC1 = accum3 >> 28;
      }
          accumC0 = accum2 >> 28;
          accumC1 = accum3 >> 28;
      }
@@ -511,22 +512,22 @@ void gf_sqr (gf_s *__restrict__ cs, const gf as) {
          smlal2(&accum1, ax, bx = a[14]);
          smlal2(&accum3, ax = a[13], bx);
          smlal(&accum1, ax, ax);
          smlal2(&accum1, ax, bx = a[14]);
          smlal2(&accum3, ax = a[13], bx);
          smlal(&accum1, ax, ax);
-        
+
          accum0 = accum1;
          accum2 = accum3;
          accum0 = accum1;
          accum2 = accum3;
-        
+
          /* t^2 terms */
          smlal2(&accum2, ax = a[8], bx = a[11]);
          smlal2(&accum0, ax, bx = a[10]);
          smlal2(&accum2, ax = a[9], bx);
          smlal(&accum0, ax, ax);
          /* t^2 terms */
          smlal2(&accum2, ax = a[8], bx = a[11]);
          smlal2(&accum0, ax, bx = a[10]);
          smlal2(&accum2, ax = a[9], bx);
          smlal(&accum0, ax, ax);
-        
+
          smlal2(&accum0, ax = a[3], bx = a[7]);
          smlal2(&accum2, ax = a[4], bx);
          smlal2(&accum0, ax, bx = a[6]);
          smlal2(&accum2, ax = a[5], bx);
          smlal(&accum0, ax, ax);
          smlal2(&accum0, ax = a[3], bx = a[7]);
          smlal2(&accum2, ax = a[4], bx);
          smlal2(&accum0, ax, bx = a[6]);
          smlal2(&accum2, ax = a[5], bx);
          smlal(&accum0, ax, ax);
-        
+
          /* t terms */
          accum1 += accum0;
          accum3 += accum2;
          /* t terms */
          accum1 += accum0;
          accum3 += accum2;
@@ -534,119 +535,124 @@ void gf_sqr (gf_s *__restrict__ cs, const gf as) {
          smlal2(&accum1, ax, bx = a[2]);
          smlal2(&accum3, ax = a[1], bx);
          smlal(&accum1, ax, ax);
          smlal2(&accum1, ax, bx = a[2]);
          smlal2(&accum3, ax = a[1], bx);
          smlal(&accum1, ax, ax);
-        
+
          accum1 = -accum1;
          accum3 = -accum3;
          accum2 = -accum2;
          accum0 = -accum0;
          accum1 = -accum1;
          accum3 = -accum3;
          accum2 = -accum2;
          accum0 = -accum0;
-        
+
          smlal2(&accum1, ax = bm[3], bx = bm[7]);
          smlal2(&accum3, ax = bm[4], bx);
          smlal2(&accum1, ax, bx = bm[6]);
          smlal2(&accum3, ax = bm[5], bx);
          smlal(&accum1, ax, ax);
          smlal2(&accum1, ax = bm[3], bx = bm[7]);
          smlal2(&accum3, ax = bm[4], bx);
          smlal2(&accum1, ax, bx = bm[6]);
          smlal2(&accum3, ax = bm[5], bx);
          smlal(&accum1, ax, ax);
-        
+
          /* 1 terms */
          smlal2(&accum2, ax = bm[0], bx = bm[3]);
          smlal2(&accum0, ax, bx = bm[2]);
          smlal2(&accum2, ax = bm[1], bx);
          smlal(&accum0, ax, ax);
          /* 1 terms */
          smlal2(&accum2, ax = bm[0], bx = bm[3]);
          smlal2(&accum0, ax, bx = bm[2]);
          smlal2(&accum2, ax = bm[1], bx);
          smlal(&accum0, ax, ax);
-        
-        
-        tmp = -accum3; accum3 = tmp-accum2; accum2 = tmp;
-        tmp = -accum1; accum1 = tmp-accum0; accum0 = tmp;
-        
+
+        tmp = -accum3;
+        accum3 = tmp - accum2;
+        accum2 = tmp;
+        tmp = -accum1;
+        accum1 = tmp - accum0;
+        accum0 = tmp;
+
          accum0 += accumC0;
          accum1 += accumC1;
          accum2 += accum0 >> 28;
          accum3 += accum1 >> 28;
          accum0 += accumC0;
          accum1 += accumC1;
          accum2 += accum0 >> 28;
          accum3 += accum1 >> 28;
-        
+
          c[2] = ((uint32_t)(accum0)) & mask;
          c[3] = ((uint32_t)(accum2)) & mask;
          c[10] = ((uint32_t)(accum1)) & mask;
          c[11] = ((uint32_t)(accum3)) & mask;
          c[2] = ((uint32_t)(accum0)) & mask;
          c[3] = ((uint32_t)(accum2)) & mask;
          c[10] = ((uint32_t)(accum1)) & mask;
          c[11] = ((uint32_t)(accum3)) & mask;
-        
+
          accumC0 = accum2 >> 28;
          accumC1 = accum3 >> 28;
      }
      {
          accumC0 = accum2 >> 28;
          accumC1 = accum3 >> 28;
      }
      {
-        
+
          /* t^3 terms */
          smull2(&accum1, ax = a[13], bx = a[15]);
          smull2(&accum3, ax = a[14], bx);
          smlal(&accum1, ax, ax);
          /* t^3 terms */
          smull2(&accum1, ax = a[13], bx = a[15]);
          smull2(&accum3, ax = a[14], bx);
          smlal(&accum1, ax, ax);
-        
+
          accum0 = accum1;
          accum2 = accum3;
          accum0 = accum1;
          accum2 = accum3;
-        
+
          /* t^2 terms */
          /* t^2 terms */
-        
+
          smlal2(&accum2, ax = a[8], bx = a[13]);
          smlal2(&accum0, ax, bx = a[12]);
          smlal2(&accum2, ax = a[9], bx);
          smlal2(&accum0, ax, bx = a[11]);
          smlal2(&accum2, ax = a[10], bx);
          smlal(&accum0, ax, ax);
          smlal2(&accum2, ax = a[8], bx = a[13]);
          smlal2(&accum0, ax, bx = a[12]);
          smlal2(&accum2, ax = a[9], bx);
          smlal2(&accum0, ax, bx = a[11]);
          smlal2(&accum2, ax = a[10], bx);
          smlal(&accum0, ax, ax);
-        
-        
+
          smlal2(&accum0, ax = a[5], bx = a[7]);
          smlal2(&accum2, ax = a[6], bx);
          smlal(&accum0, ax, ax);
          smlal2(&accum0, ax = a[5], bx = a[7]);
          smlal2(&accum2, ax = a[6], bx);
          smlal(&accum0, ax, ax);
-        
+
          /* t terms */
          accum1 += accum0;
          accum3 += accum2;
          /* t terms */
          accum1 += accum0;
          accum3 += accum2;
-        
+
          smlal2(&accum3, ax = a[0], bx = a[5]);
          smlal2(&accum1, ax, bx = a[4]);
          smlal2(&accum3, ax = a[1], bx);
          smlal2(&accum1, ax, bx = a[3]);
          smlal2(&accum3, ax = a[2], bx);
          smlal(&accum1, ax, ax);
          smlal2(&accum3, ax = a[0], bx = a[5]);
          smlal2(&accum1, ax, bx = a[4]);
          smlal2(&accum3, ax = a[1], bx);
          smlal2(&accum1, ax, bx = a[3]);
          smlal2(&accum3, ax = a[2], bx);
          smlal(&accum1, ax, ax);
-        
+
          accum1 = -accum1;
          accum3 = -accum3;
          accum2 = -accum2;
          accum0 = -accum0;
          accum1 = -accum1;
          accum3 = -accum3;
          accum2 = -accum2;
          accum0 = -accum0;
-        
+
          smlal2(&accum1, ax = bm[5], bx = bm[7]);
          smlal2(&accum3, ax = bm[6], bx);
          smlal(&accum1, ax, ax);
          smlal2(&accum1, ax = bm[5], bx = bm[7]);
          smlal2(&accum3, ax = bm[6], bx);
          smlal(&accum1, ax, ax);
-        
+
          /* 1 terms */
          /* 1 terms */
-        
+
          smlal2(&accum2, ax = bm[0], bx = bm[5]);
          smlal2(&accum0, ax, bx = bm[4]);
          smlal2(&accum2, ax = bm[1], bx);
          smlal2(&accum0, ax, bx = bm[3]);
          smlal2(&accum2, ax = bm[2], bx);
          smlal(&accum0, ax, ax);
          smlal2(&accum2, ax = bm[0], bx = bm[5]);
          smlal2(&accum0, ax, bx = bm[4]);
          smlal2(&accum2, ax = bm[1], bx);
          smlal2(&accum0, ax, bx = bm[3]);
          smlal2(&accum2, ax = bm[2], bx);
          smlal(&accum0, ax, ax);
-        
-        
-        tmp = -accum3; accum3 = tmp-accum2; accum2 = tmp;
-        tmp = -accum1; accum1 = tmp-accum0; accum0 = tmp;
-        
+
+        tmp = -accum3;
+        accum3 = tmp - accum2;
+        accum2 = tmp;
+        tmp = -accum1;
+        accum1 = tmp - accum0;
+        accum0 = tmp;
+
          accum0 += accumC0;
          accum1 += accumC1;
          accum2 += accum0 >> 28;
          accum3 += accum1 >> 28;
          accum0 += accumC0;
          accum1 += accumC1;
          accum2 += accum0 >> 28;
          accum3 += accum1 >> 28;
-        
+
          c[4] = ((uint32_t)(accum0)) & mask;
          c[5] = ((uint32_t)(accum2)) & mask;
          c[12] = ((uint32_t)(accum1)) & mask;
          c[13] = ((uint32_t)(accum3)) & mask;
          c[4] = ((uint32_t)(accum0)) & mask;
          c[5] = ((uint32_t)(accum2)) & mask;
          c[12] = ((uint32_t)(accum1)) & mask;
          c[13] = ((uint32_t)(accum3)) & mask;
-        
+
          accumC0 = accum2 >> 28;
          accumC1 = accum3 >> 28;
      }
      {
          accumC0 = accum2 >> 28;
          accumC1 = accum3 >> 28;
      }
      {
-        
+
          /* t^3 terms */
          smull(&accum1, ax = a[15], bx = a[15]);
          accum0 = accum1;
          /* t^3 terms */
          smull(&accum1, ax = a[15], bx = a[15]);
          accum0 = accum1;
-        
+
          /* t^2 terms */
          /* t^2 terms */
-        
+
          smull2(&accum2, ax = a[8], bx);
          smlal2(&accum0, ax, bx = a[14]);
          smlal2(&accum2, ax = a[9], bx);
          smull2(&accum2, ax = a[8], bx);
          smlal2(&accum0, ax, bx = a[14]);
          smlal2(&accum2, ax = a[9], bx);
@@ -655,14 +661,13 @@ void gf_sqr (gf_s *__restrict__ cs, const gf as) {
          smlal2(&accum0, ax, bx = a[12]);
          smlal2(&accum2, ax = a[11], bx);
          smlal(&accum0, ax, ax);
          smlal2(&accum0, ax, bx = a[12]);
          smlal2(&accum2, ax = a[11], bx);
          smlal(&accum0, ax, ax);
-        
-        
+
          smlal(&accum0, ax = a[7], bx = a[7]);
          smlal(&accum0, ax = a[7], bx = a[7]);
-        
+
          /* t terms */
          accum1 += accum0;
          accum3 = accum2;
          /* t terms */
          accum1 += accum0;
          accum3 = accum2;
-        
+
          smlal2(&accum3, ax = a[0], bx);
          smlal2(&accum1, ax, bx = a[6]);
          smlal2(&accum3, ax = a[1], bx);
          smlal2(&accum3, ax = a[0], bx);
          smlal2(&accum1, ax, bx = a[6]);
          smlal2(&accum3, ax = a[1], bx);
@@ -671,17 +676,17 @@ void gf_sqr (gf_s *__restrict__ cs, const gf as) {
          smlal2(&accum1, ax, bx = a[4]);
          smlal2(&accum3, ax = a[3], bx);
          smlal(&accum1, ax, ax);
          smlal2(&accum1, ax, bx = a[4]);
          smlal2(&accum3, ax = a[3], bx);
          smlal(&accum1, ax, ax);
-        
+
          accum1 = -accum1;
          accum3 = -accum3;
          accum2 = -accum2;
          accum0 = -accum0;
          accum1 = -accum1;
          accum3 = -accum3;
          accum2 = -accum2;
          accum0 = -accum0;
-        
+
          bx = bm[7];
          smlal(&accum1, bx, bx);
          bx = bm[7];
          smlal(&accum1, bx, bx);
-        
+
          /* 1 terms */
          /* 1 terms */
-        
+
          smlal2(&accum2, ax = bm[0], bx);
          smlal2(&accum0, ax, bx = bm[6]);
          smlal2(&accum2, ax = bm[1], bx);
          smlal2(&accum2, ax = bm[0], bx);
          smlal2(&accum0, ax, bx = bm[6]);
          smlal2(&accum2, ax = bm[1], bx);
@@ -690,21 +695,24 @@ void gf_sqr (gf_s *__restrict__ cs, const gf as) {
          smlal2(&accum0, ax, bx = bm[4]);
          smlal2(&accum2, ax = bm[3], bx);
          smlal(&accum0, ax, ax);
          smlal2(&accum0, ax, bx = bm[4]);
          smlal2(&accum2, ax = bm[3], bx);
          smlal(&accum0, ax, ax);
-        
-        tmp = -accum3; accum3 = tmp-accum2; accum2 = tmp;
-        tmp = -accum1; accum1 = tmp-accum0; accum0 = tmp;
-        
-        
+
+        tmp = -accum3;
+        accum3 = tmp - accum2;
+        accum2 = tmp;
+        tmp = -accum1;
+        accum1 = tmp - accum0;
+        accum0 = tmp;
+
          accum0 += accumC0;
          accum1 += accumC1;
          accum2 += accum0 >> 28;
          accum3 += accum1 >> 28;
          accum0 += accumC0;
          accum1 += accumC1;
          accum2 += accum0 >> 28;
          accum3 += accum1 >> 28;
-        
+
          c[6] = ((uint32_t)(accum0)) & mask;
          c[7] = ((uint32_t)(accum2)) & mask;
          c[14] = ((uint32_t)(accum1)) & mask;
          c[15] = ((uint32_t)(accum3)) & mask;
          c[6] = ((uint32_t)(accum0)) & mask;
          c[7] = ((uint32_t)(accum2)) & mask;
          c[14] = ((uint32_t)(accum1)) & mask;
          c[15] = ((uint32_t)(accum3)) & mask;
-        
+
          accum0 = accum2 >> 28;
          accum1 = accum3 >> 28;
      }
          accum0 = accum2 >> 28;
          accum1 = accum3 >> 28;
      }
@@ -714,98 +722,117 @@ void gf_sqr (gf_s *__restrict__ cs, const gf as) {
      accum1 += c[0];
      c[8] = ((uint32_t)(accum0)) & mask;
      c[0] = ((uint32_t)(accum1)) & mask;
      accum1 += c[0];
      c[8] = ((uint32_t)(accum0)) & mask;
      c[0] = ((uint32_t)(accum1)) & mask;
-    
+
      accum0 >>= 28;
      accum1 >>= 28;
      c[9] += ((uint32_t)(accum0));
      c[1] += ((uint32_t)(accum1));
  }
  
      accum0 >>= 28;
      accum1 >>= 28;
      c[9] += ((uint32_t)(accum0));
      c[1] += ((uint32_t)(accum1));
  }
  
-void gf_mulw_unsigned (
-    gf_s *__restrict__ cs,
-    const gf as,
-    uint32_t b
-) {
-    uint32_t mask = (1ull<<28)-1;  
-    assert(b <= mask);
-    
+void gf_mulw_unsigned(gf_s * __restrict__ cs, const gf as, uint32_t b)
+{
+    uint32_t mask = (1ull << 28) - 1;
      const uint32_t *a = as->limb;
      uint32_t *c = cs->limb;
      const uint32_t *a = as->limb;
      uint32_t *c = cs->limb;
-
      uint64_t accum0, accum8;
      uint64_t accum0, accum8;
-
      int i;
      int i;
-
      uint32_t c0, c8, n0, n8;
      uint32_t c0, c8, n0, n8;
-    c0 = a[0]; c8 = a[8];
+
+    assert(b <= mask);
+
+    c0 = a[0];
+    c8 = a[8];
      accum0 = widemul(b, c0);
      accum8 = widemul(b, c8);
  
      accum0 = widemul(b, c0);
      accum8 = widemul(b, c8);
  
-    c[0] = accum0 & mask; accum0 >>= 28;
-    c[8] = accum8 & mask; accum8 >>= 28;
-    
-    i=1;
+    c[0] = accum0 & mask;
+    accum0 >>= 28;
+    c[8] = accum8 & mask;
+    accum8 >>= 28;
+
+    i = 1;
      {
      {
-        n0 = a[i]; n8 = a[i+8];
+        n0 = a[i];
+        n8 = a[i + 8];
          smlal(&accum0, b, n0);
          smlal(&accum8, b, n8);
          smlal(&accum0, b, n0);
          smlal(&accum8, b, n8);
-        
-        c[i] = accum0 & mask; accum0 >>= 28;
-        c[i+8] = accum8 & mask; accum8 >>= 28;
+
+        c[i] = accum0 & mask;
+        accum0 >>= 28;
+        c[i + 8] = accum8 & mask;
+        accum8 >>= 28;
          i++;
      }
      {
          i++;
      }
      {
-        c0 = a[i]; c8 = a[i+8];
+        c0 = a[i];
+        c8 = a[i + 8];
          smlal(&accum0, b, c0);
          smlal(&accum8, b, c8);
  
          smlal(&accum0, b, c0);
          smlal(&accum8, b, c8);
  
-        c[i] = accum0 & mask; accum0 >>= 28;
-        c[i+8] = accum8 & mask; accum8 >>= 28;
+        c[i] = accum0 & mask;
+        accum0 >>= 28;
+        c[i + 8] = accum8 & mask;
+        accum8 >>= 28;
          i++;
      }
      {
          i++;
      }
      {
-        n0 = a[i]; n8 = a[i+8];
+        n0 = a[i];
+        n8 = a[i + 8];
          smlal(&accum0, b, n0);
          smlal(&accum8, b, n8);
  
          smlal(&accum0, b, n0);
          smlal(&accum8, b, n8);
  
-        c[i] = accum0 & mask; accum0 >>= 28;
-        c[i+8] = accum8 & mask; accum8 >>= 28;
+        c[i] = accum0 & mask;
+        accum0 >>= 28;
+        c[i + 8] = accum8 & mask;
+        accum8 >>= 28;
          i++;
      }
      {
          i++;
      }
      {
-        c0 = a[i]; c8 = a[i+8];
+        c0 = a[i];
+        c8 = a[i + 8];
          smlal(&accum0, b, c0);
          smlal(&accum8, b, c8);
  
          smlal(&accum0, b, c0);
          smlal(&accum8, b, c8);
  
-        c[i] = accum0 & mask; accum0 >>= 28;
-        c[i+8] = accum8 & mask; accum8 >>= 28;
+        c[i] = accum0 & mask;
+        accum0 >>= 28;
+        c[i + 8] = accum8 & mask;
+        accum8 >>= 28;
          i++;
      }
      {
          i++;
      }
      {
-        n0 = a[i]; n8 = a[i+8];
+        n0 = a[i];
+        n8 = a[i + 8];
          smlal(&accum0, b, n0);
          smlal(&accum8, b, n8);
  
          smlal(&accum0, b, n0);
          smlal(&accum8, b, n8);
  
-        c[i] = accum0 & mask; accum0 >>= 28;
-        c[i+8] = accum8 & mask; accum8 >>= 28;
+        c[i] = accum0 & mask;
+        accum0 >>= 28;
+        c[i + 8] = accum8 & mask;
+        accum8 >>= 28;
          i++;
      }
      {
          i++;
      }
      {
-        c0 = a[i]; c8 = a[i+8];
+        c0 = a[i];
+        c8 = a[i + 8];
          smlal(&accum0, b, c0);
          smlal(&accum8, b, c8);
          smlal(&accum0, b, c0);
          smlal(&accum8, b, c8);
-        
-        c[i] = accum0 & mask; accum0 >>= 28;
-        c[i+8] = accum8 & mask; accum8 >>= 28;
+
+        c[i] = accum0 & mask;
+        accum0 >>= 28;
+        c[i + 8] = accum8 & mask;
+        accum8 >>= 28;
          i++;
      }
      {
          i++;
      }
      {
-        n0 = a[i]; n8 = a[i+8];
+        n0 = a[i];
+        n8 = a[i + 8];
          smlal(&accum0, b, n0);
          smlal(&accum8, b, n8);
  
          smlal(&accum0, b, n0);
          smlal(&accum8, b, n8);
  
-        c[i] = accum0 & mask; accum0 >>= 28;
-        c[i+8] = accum8 & mask; accum8 >>= 28;
+        c[i] = accum0 & mask;
+        accum0 >>= 28;
+        c[i + 8] = accum8 & mask;
+        accum8 >>= 28;
          i++;
      }
  
          i++;
      }