md5/asm/md5-[586|x86_64].pl: +15% on Atom.
[openssl.git] / crypto / md5 / asm / md5-586.pl
index 0249e100e1d3683c66fd3cd2e72fb6bed5c7406d..497135717381b1aa9ef4da6353782013f5756c78 100644 (file)
@@ -7,7 +7,8 @@
 
 $normal=0;
 
-push(@INC,"perlasm","../../perlasm");
+$0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;
+push(@INC,"${dir}","${dir}../../perlasm");
 require "x86asm.pl";
 
 &asm_init($ARGV[0],$0);
@@ -29,7 +30,7 @@ $X="esi";
  0, 7, 14, 5, 12, 3, 10, 1, 8, 15, 6, 13, 4, 11, 2, 9, # R3
  );
 
-&md5_block("md5_block_x86");
+&md5_block("md5_block_asm_data_order");
 &asm_finish();
 
 sub Np
@@ -55,14 +56,14 @@ sub R0
        &lea($a,&DWP($t,$a,$tmp2,1));
 
        &xor($tmp1,$d); # F function - part 4
+       &mov($tmp2,&DWP($xo[$ki+1]*4,$K,"",0)) if ($pos != 2);
 
        &add($a,$tmp1);
-       &mov($tmp1,&Np($c)) if $pos < 1;        # next tmp1 for R0
-       &mov($tmp1,&Np($c)) if $pos == 1;       # next tmp1 for R1
 
        &rotl($a,$s);
 
-       &mov($tmp2,&DWP($xo[$ki+1]*4,$K,"",0)) if ($pos != 2);
+       &mov($tmp1,&Np($c)) if $pos < 1;        # next tmp1 for R0
+       &mov($tmp1,&Np($c)) if $pos == 1;       # next tmp1 for R1
 
        &add($a,$b);
        }
@@ -73,13 +74,12 @@ sub R1
 
        &comment("R1 $ki");
 
-       &lea($a,&DWP($t,$a,$tmp2,1));
-
        &xor($tmp1,$b); # G function - part 2
        &and($tmp1,$d); # G function - part 3
+       &lea($a,&DWP($t,$a,$tmp2,1));
 
-       &mov($tmp2,&DWP($xo[$ki+1]*4,$K,"",0)) if ($pos != 2);
        &xor($tmp1,$c);                 # G function - part 4
+       &mov($tmp2,&DWP($xo[$ki+1]*4,$K,"",0)) if ($pos != 2);
 
        &add($a,$tmp1);
        &mov($tmp1,&Np($c)) if $pos < 1;        # G function - part 1
@@ -107,10 +107,10 @@ if (($n & 1) == 0)
        &lea($a,&DWP($t,$a,$tmp2,1));
 
        &add($a,$tmp1);
+       &mov($tmp2,&DWP($xo[$ki+1]*4,$K,"",0));
 
        &rotl($a,$s);
 
-       &mov($tmp2,&DWP($xo[$ki+1]*4,$K,"",0));
        &mov($tmp1,&Np($c));
        }
 else
@@ -119,11 +119,11 @@ else
        # make sure to do 'D' first, not 'B', else we clash with
        # the last add from the previous round.
 
-       &lea($a,&DWP($t,$a,$tmp2,1));
-
        &add($b,$c);                    # MOVED FORWARD
        &xor($tmp1,$d); # H function - part 2
 
+       &lea($a,&DWP($t,$a,$tmp2,1));
+
        &xor($tmp1,$b); # H function - part 3
        &mov($tmp2,&DWP($xo[$ki+1]*4,$K,"",0)) if ($pos != 2);
 
@@ -183,6 +183,7 @@ sub md5_block
         &mov($X,       &wparam(1)); # esi
        &mov($C,        &wparam(2));
         &push("ebp");
+       &shl($C,        6);
        &push("ebx");
         &add($C,       $X); # offset we end at
        &sub($C,        64);
@@ -292,7 +293,7 @@ sub md5_block
         &mov(&DWP(12,$tmp2,"",0),$D);
 
        &cmp($tmp1,$X) unless $normal;                  # check count
-        &jge(&label("start")) unless $normal;
+        &jae(&label("start")) unless $normal;
 
        &pop("eax"); # pop the temp variable off the stack
         &pop("ebx");