sha1-x86* assembler update: F_40_59 and Atom-specific optimizations.

[openssl.git] / crypto / sha / asm / sha1-586.pl
diff --git a/crypto/sha/asm/sha1-586.pl b/crypto/sha/asm/sha1-586.pl

index 8a8228f94f90172366412079c3fc5894880b1c12..dc855ef5570be90edfd5a751d3183f5af3b79216 100644 (file)
--- a/crypto/sha/asm/sha1-586.pl
+++ b/crypto/sha/asm/sha1-586.pl
@@ -2,8 +2,9 @@
  
  # ====================================================================
  # [Re]written by Andy Polyakov <appro@fy.chalmers.se> for the OpenSSL
-# project. Rights for redistribution and usage in source and binary
-# forms are granted according to the OpenSSL license.
+# project. The module is, however, dual licensed under OpenSSL and
+# CRYPTOGAMS licenses depending on where you obtain it. For further
+# details see http://www.openssl.org/~appro/cryptogams/.
  # ====================================================================
  
  # "[Re]written" was achieved in two major overhauls. In 2004 BODY_*
@@ -11,6 +12,8 @@
  # commentary below], and in 2006 the rest was rewritten in order to
  # gain freedom to liberate licensing terms.
  
+# January, September 2004.
+#
  # It was noted that Intel IA-32 C compiler generates code which
  # performs ~30% *faster* on P4 CPU than original *hand-coded*
  # SHA1 assembler implementation. To address this problem (and
@@ -28,15 +31,21 @@
  # improvement on P4 outweights the loss and incorporate this
  # re-tuned code to 0.9.7 and later.
  # ----------------------------------------------------------------
-# Those who for any particular reason absolutely must score on
-# Pentium can replace this module with one from 0.9.6 distribution.
-# This "offer" shall be revoked the moment programming interface to
-# this module is changed, in which case this paragraph should be
-# removed.
-# ----------------------------------------------------------------
  #                                      <appro@fy.chalmers.se>
  
-push(@INC,"perlasm","../../perlasm");
+# August 2009.
+#
+# George Spelvin has tipped that F_40_59(b,c,d) can be rewritten as
+# '(c&d) + (b&(c^d))', which allows to accumulate partial results
+# and lighten "pressure" on scratch registers. This resulted in
+# >12% performance improvement on contemporary AMD cores (with no
+# degradation on other CPUs:-). Also, the code was revised to maximize
+# "distance" between instructions producing input to 'lea' instruction
+# and the 'lea' instruction itself, which is essential for Intel Atom
+# core.
+
+$0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;
+push(@INC,"${dir}","${dir}../../perlasm");
  require "x86asm.pl";
  
  &asm_init($ARGV[0],"sha1-586.pl",$ARGV[$#ARGV] eq "386");
@@ -63,15 +72,16 @@ sub BODY_00_15
         &rotl($tmp1,5);                 # tmp1=ROTATE(a,5)
          &xor($f,$d);
         &add($tmp1,$e);                 # tmp1+=e;
-        &and($f,$b);
-       &mov($e,&swtmp($n%16));         # e becomes volatile and is loaded
+        &mov($e,&swtmp($n%16));        # e becomes volatile and is loaded
                                         # with xi, also note that e becomes
                                         # f in next round...
-        &xor($f,$d);                   # f holds F_00_19(b,c,d)
+       &and($f,$b);
         &rotr($b,2);                    # b=ROTATE(b,30)
-        &lea($tmp1,&DWP(0x5a827999,$tmp1,$e)); # tmp1+=K_00_19+xi
+        &xor($f,$d);                   # f holds F_00_19(b,c,d)
+       &lea($tmp1,&DWP(0x5a827999,$tmp1,$e));  # tmp1+=K_00_19+xi
  
-       if ($n==15) { &add($f,$tmp1); } # f+=tmp1
+       if ($n==15) { &mov($e,&swtmp(($n+1)%16));# pre-fetch f for next round
+                     &add($f,$tmp1); } # f+=tmp1
         else        { &add($tmp1,$f); } # f becomes a in next round
         }
  
@@ -81,22 +91,22 @@ sub BODY_16_19
  
         &comment("16_19 $n");
  
-       &mov($f,&swtmp($n%16));         # f to hold Xupdate(xi,xa,xb,xc,xd)
-        &mov($tmp1,$c);                # tmp1 to hold F_00_19(b,c,d)
-       &xor($f,&swtmp(($n+2)%16));
-        &xor($tmp1,$d);
-       &xor($f,&swtmp(($n+8)%16));
-        &and($tmp1,$b);                # tmp1 holds F_00_19(b,c,d)
-       &rotr($b,2);                    # b=ROTATE(b,30)
+       &mov($tmp1,$c);                 # tmp1 to hold F_00_19(b,c,d)
+        &xor($f,&swtmp(($n+2)%16));    # f to hold Xupdate(xi,xa,xb,xc,xd)
+       &xor($tmp1,$d);
+        &xor($f,&swtmp(($n+8)%16));
+       &and($tmp1,$b);
          &xor($f,&swtmp(($n+13)%16));   # f holds xa^xb^xc^xd
         &rotl($f,1);                    # f=ROTATE(f,1)
          &xor($tmp1,$d);                # tmp1=F_00_19(b,c,d)
-       &mov(&swtmp($n%16),$f);         # xi=f
-       &lea($f,&DWP(0x5a827999,$f,$e));# f+=K_00_19+e
-        &mov($e,$a);                   # e becomes volatile
-       &rotl($e,5);                    # e=ROTATE(a,5)
-        &add($f,$tmp1);                # f+=F_00_19(b,c,d)
-       &add($f,$e);                    # f+=ROTATE(a,5)
+       &add($e,$tmp1);                 # e+=F_00_19(b,c,d)
+        &mov($tmp1,$a);
+       &rotr($b,2);                    # b=ROTATE(b,30)
+        &mov(&swtmp($n%16),$f);        # xi=f
+       &rotl($tmp1,5);                 # ROTATE(a,5)
+        &lea($f,&DWP(0x5a827999,$f,$e));# f+=F_00_19(b,c,d)+e
+       &mov($e,&swtmp(($n+1)%16));     # pre-fetch f for next round
+        &add($f,$tmp1);                # f+=ROTATE(a,5)
         }
  
  sub BODY_20_39
@@ -107,20 +117,20 @@ sub BODY_20_39
         &comment("20_39 $n");
  
         &mov($tmp1,$b);                 # tmp1 to hold F_20_39(b,c,d)
-        &mov($f,&swtmp($n%16));        # f to hold Xupdate(xi,xa,xb,xc,xd)
-       &rotr($b,2);                    # b=ROTATE(b,30)
-        &xor($f,&swtmp(($n+2)%16));
+        &xor($f,&swtmp(($n+2)%16));    # f to hold Xupdate(xi,xa,xb,xc,xd)
         &xor($tmp1,$c);
          &xor($f,&swtmp(($n+8)%16));
         &xor($tmp1,$d);                 # tmp1 holds F_20_39(b,c,d)
          &xor($f,&swtmp(($n+13)%16));   # f holds xa^xb^xc^xd
         &rotl($f,1);                    # f=ROTATE(f,1)
-        &add($tmp1,$e);
-       &mov(&swtmp($n%16),$f);         # xi=f
-        &mov($e,$a);                   # e becomes volatile
-       &rotl($e,5);                    # e=ROTATE(a,5)
-        &lea($f,&DWP($K,$f,$tmp1));    # f+=K_20_39+e
-       &add($f,$e);                    # f+=ROTATE(a,5)
+        &add($e,$tmp1);                # e+=F_20_39(b,c,d)
+       &rotr($b,2);                    # b=ROTATE(b,30)
+        &mov($tmp1,$a);
+       &rotl($tmp1,5);                 # ROTATE(a,5)
+        &mov(&swtmp($n%16),$f) if($n<77);# xi=f
+       &lea($f,&DWP($K,$f,$e));        # f+=e+K_XX_YY
+        &mov($e,&swtmp(($n+1)%16)) if($n<79);# pre-fetch f for next round
+       &add($f,$tmp1);                 # f+=ROTATE(a,5)
         }
  
  sub BODY_40_59
@@ -129,31 +139,27 @@ sub BODY_40_59
  
         &comment("40_59 $n");
  
-       &mov($f,&swtmp($n%16));         # f to hold Xupdate(xi,xa,xb,xc,xd)
-        &mov($tmp1,&swtmp(($n+2)%16));
-       &xor($f,$tmp1);
-        &mov($tmp1,&swtmp(($n+8)%16));
-       &xor($f,$tmp1);
-        &mov($tmp1,&swtmp(($n+13)%16));
-       &xor($f,$tmp1);                 # f holds xa^xb^xc^xd
-        &mov($tmp1,$b);                # tmp1 to hold F_40_59(b,c,d)
+       &mov($tmp1,$c);                 # tmp1 to hold F_40_59(b,c,d)
+        &xor($f,&swtmp(($n+2)%16));    # f to hold Xupdate(xi,xa,xb,xc,xd)
+       &xor($tmp1,$d);
+        &xor($f,&swtmp(($n+8)%16));
+       &and($tmp1,$b);
+        &xor($f,&swtmp(($n+13)%16));   # f holds xa^xb^xc^xd
         &rotl($f,1);                    # f=ROTATE(f,1)
-        &or($tmp1,$c);
-       &mov(&swtmp($n%16),$f);         # xi=f
-        &and($tmp1,$d);
-       &lea($f,&DWP(0x8f1bbcdc,$f,$e));# f+=K_40_59+e
-        &mov($e,$b);                   # e becomes volatile and is used
-                                       # to calculate F_40_59(b,c,d)
+        &add($tmp1,$e);                # b&(c^d)+=e
         &rotr($b,2);                    # b=ROTATE(b,30)
-        &and($e,$c);
-       &or($tmp1,$e);                  # tmp1 holds F_40_59(b,c,d)             
-        &mov($e,$a);
-       &rotl($e,5);                    # e=ROTATE(a,5)
-        &add($f,$tmp1);                # f+=tmp1;
+        &mov($e,$a);                   # e becomes volatile
+       &rotl($e,5);                    # ROTATE(a,5)
+        &mov(&swtmp($n%16),$f);        # xi=f
+       &lea($f,&DWP(0x8f1bbcdc,$f,$tmp1));# f+=K_40_59+e+(b&(c^d))
+        &mov($tmp1,$c);
         &add($f,$e);                    # f+=ROTATE(a,5)
+        &and($tmp1,$d);
+       &mov($e,&swtmp(($n+1)%16));     # pre-fetch f for next round
+        &add($f,$tmp1);                # f+=c&d
         }
  
-&function_begin("sha1_block_asm_data_order",16);
+&function_begin("sha1_block_data_order");
         &mov($tmp1,&wparam(0)); # SHA_CTX *c
         &mov($T,&wparam(1));    # const void *input
         &mov($A,&wparam(2));    # size_t num
@@ -189,10 +195,6 @@ sub BODY_40_59
         &mov($D,&DWP(12,$tmp1));
         # E is pre-loaded
  
-       &set_label("shortcut");
-       # keep a note of shortcut label so it can be used outside the block.
-       $shortcut = &label("shortcut");
-
         for($i=0;$i<16;$i++)    { &BODY_00_15($i,@V); unshift(@V,pop(@V)); }
         for(;$i<20;$i++)        { &BODY_16_19($i,@V); unshift(@V,pop(@V)); }
         for(;$i<40;$i++)        { &BODY_20_39($i,@V); unshift(@V,pop(@V)); }
@@ -222,36 +224,7 @@ sub BODY_40_59
         &jb(&label("loop"));
  
         &stack_pop(16);
-&function_end("sha1_block_asm_data_order");
-
-&function_begin("sha1_block_asm_host_order",16);
-       &mov($tmp1,&wparam(0)); # SHA_CTX *c
-       &mov($T,&wparam(1));    # const void *input
-       #&mov($A,&wparam(2));   # size_t num, always 1
-       &stack_push(16);        # allocate X[16]
-       &lea($A,&DWP(64,$T));   # this works, because num is always 1 here
-       &mov(&wparam(2),$A);    # pointer beyond the end of input
-
-       # just copy input to X
-       for ($i=0; $i<16; $i+=4)
-               {
-               &mov($A,&DWP(4*($i+0),$T));
-               &mov($B,&DWP(4*($i+1),$T));
-               &mov($C,&DWP(4*($i+2),$T));
-               &mov($D,&DWP(4*($i+3),$T));
-               &mov(&swtmp($i+0),$A);
-               &mov(&swtmp($i+1),$B);
-               &mov(&swtmp($i+2),$C);
-               &mov(&swtmp($i+3),$D);
-               }
-
-       &mov($A,&DWP(0,$tmp1)); # load SHA_CTX
-       &mov($B,&DWP(4,$tmp1));
-       &mov($C,&DWP(8,$tmp1));
-       &mov($D,&DWP(12,$tmp1));
-       &mov($E,&DWP(16,$tmp1));
-
-       &jmp($shortcut);        # this works, because num is always 1
-&function_end_B("sha1_block_asm_host_order");
+&function_end("sha1_block_data_order");
+&asciz("SHA1 block transform for x86, CRYPTOGAMS by <appro\@openssl.org>");
  
  &asm_finish();