crypto/sha/asm/sha256-586.pl

   1 #!/usr/bin/env perl
   2 #
   3 # ====================================================================
   4 # Written by Andy Polyakov <appro@openssl.org> for the OpenSSL
   5 # project. The module is, however, dual licensed under OpenSSL and
   6 # CRYPTOGAMS licenses depending on where you obtain it. For further
   7 # details see http://www.openssl.org/~appro/cryptogams/.
   8 # ====================================================================
   9 #
  10 # SHA256 block transform for x86. September 2007.
  11 #
  12 # Performance improvement over compiler generated code varies from
  13 # 10% to 40% [see below]. Not very impressive on some µ-archs, but
  14 # it's 5 times smaller and optimizies amount of writes.
  15 #
  16 # May 2012.
  17 #
  18 # Optimization including two of Pavel Semjanov's ideas, alternative
  19 # Maj and full unroll, resulted in ~20-25% improvement on most CPUs,
  20 # ~7% on Pentium, ~40% on Atom. As fully unrolled loop body is almost
  21 # 15x larger, 8KB vs. 560B, it's fired only for longer inputs. But not
  22 # on P4, where it kills performance, nor Sandy Bridge, where folded
  23 # loop is approximately as fast...
  24 #
  25 # Performance in clock cycles per processed byte (less is better):
  26 #
  27 #               PIII    P4      AMD K8  Core2   SB(**)  Atom    Bldzr
  28 # gcc           36      41      27      26      25      50      36
  29 # icc           33      38      25      23      -       -       -
  30 # x86 asm(*)    27/24   28      19/15.5 18/15.6 16(**)  30/25   27/22
  31 # x86_64 asm(***)       17.5    15      15.5    17.5    23      21
  32 #
  33 # (*)   numbers after slash are for unrolled loop, where available;
  34 # (**)  for Sandy Bridge executing code path with ror replaced with
  35 #       equivalent shrd;
  36 # (***) x86_64 assembly performance is presented for reference
  37 #       purposes.
  38
  39 $0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;
  40 push(@INC,"${dir}","${dir}../../perlasm");
  41 require "x86asm.pl";
  42
  43 &asm_init($ARGV[0],"sha512-586.pl",$ARGV[$#ARGV] eq "386");
  44
  45 $unroll_after = 64*4;   # If pre-evicted from L1P cache first spin of
  46                         # fully unrolled loop was measured to run about
  47                         # 3-4x slower. If slowdown coefficient is N and
  48                         # unrolled loop is m times faster, then you break
  49                         # even at (N-1)/(m-1) blocks. Then it needs to be
  50                         # adjusted for probability of code being evicted,
  51                         # code size/cache size=1/4. Typical m is 1.15...
  52
  53 $A="eax";
  54 $E="edx";
  55 $T="ebx";
  56 $Aoff=&DWP(4,"esp");
  57 $Boff=&DWP(8,"esp");
  58 $Coff=&DWP(12,"esp");
  59 $Doff=&DWP(16,"esp");
  60 $Eoff=&DWP(20,"esp");
  61 $Foff=&DWP(24,"esp");
  62 $Goff=&DWP(28,"esp");
  63 $Hoff=&DWP(32,"esp");
  64 $Xoff=&DWP(36,"esp");
  65 $K256="ebp";
  66
  67 sub BODY_16_63() {
  68         &mov    ($T,"ecx");                     # "ecx" is preloaded
  69          &mov   ("esi",&DWP(4*(9+15+16-14),"esp"));
  70         &ror    ("ecx",18-7);
  71          &mov   ("edi","esi");
  72         &ror    ("esi",19-17);
  73          &xor   ("ecx",$T);
  74          &shr   ($T,3);
  75         &ror    ("ecx",7);
  76          &xor   ("esi","edi");
  77          &xor   ($T,"ecx");                     # T = sigma0(X[-15])
  78         &ror    ("esi",17);
  79          &add   ($T,&DWP(4*(9+15+16),"esp"));   # T += X[-16]
  80         &shr    ("edi",10);
  81          &add   ($T,&DWP(4*(9+15+16-9),"esp")); # T += X[-7]
  82         #&xor   ("edi","esi")                   # sigma1(X[-2])
  83         # &add  ($T,"edi");                     # T += sigma1(X[-2])
  84         # &mov  (&DWP(4*(9+15),"esp"),$T);      # save X[0]
  85
  86         &BODY_00_15(1);
  87 }
  88 sub BODY_00_15() {
  89     my $in_16_63=shift;
  90
  91         &mov    ("ecx",$E);
  92          &xor   ("edi","esi")                   if ($in_16_63); # sigma1(X[-2])
  93          &mov   ("esi",$Foff);
  94         &ror    ("ecx",25-11);
  95          &add   ($T,"edi")                      if ($in_16_63); # T += sigma1(X[-2])
  96          &mov   ("edi",$Goff);
  97         &xor    ("ecx",$E);
  98          &xor   ("esi","edi");
  99          &mov   ($T,&DWP(4*(9+15),"esp"))       if (!$in_16_63);
 100          &mov   (&DWP(4*(9+15),"esp"),$T)       if ($in_16_63); # save X[0]
 101         &ror    ("ecx",11-6);
 102          &and   ("esi",$E);
 103          &mov   ($Eoff,$E);             # modulo-scheduled
 104         &xor    ($E,"ecx");
 105          &add   ($T,$Hoff);             # T += h
 106          &xor   ("esi","edi");          # Ch(e,f,g)
 107         &ror    ($E,6);                 # Sigma1(e)
 108          &mov   ("ecx",$A);
 109          &add   ($T,"esi");             # T += Ch(e,f,g)
 110
 111         &ror    ("ecx",22-13);
 112          &add   ($T,$E);                # T += Sigma1(e)
 113          &mov   ("edi",$Boff);
 114         &xor    ("ecx",$A);
 115          &mov   ($Aoff,$A);             # modulo-scheduled
 116          &lea   ("esp",&DWP(-4,"esp"));
 117         &ror    ("ecx",13-2);
 118          &mov   ("esi",&DWP(0,$K256));
 119         &xor    ("ecx",$A);
 120          &mov   ($E,$Eoff);             # e in next iteration, d in this one
 121          &xor   ($A,"edi");             # a ^= b
 122         &ror    ("ecx",2);              # Sigma0(a)
 123
 124          &add   ($T,"esi");             # T+= K[i]
 125          &mov   (&DWP(0,"esp"),$A);     # (b^c) in next round
 126         &add    ($E,$T);                # d += T
 127          &and   ($A,&DWP(4,"esp"));     # a &= (b^c)
 128         &add    ($T,"ecx");             # T += Sigma0(a)
 129          &xor   ($A,"edi");             # h = Maj(a,b,c) = Ch(a^b,c,b)
 130          &mov   ("ecx",&DWP(4*(9+15+16-1),"esp"))       if ($in_16_63); # preload T
 131         &add    ($K256,4);
 132          &add   ($A,$T);                # h += T
 133 }
 134
 135 &external_label("OPENSSL_ia32cap_P")            if (!$i386);
 136
 137 &function_begin("sha256_block_data_order");
 138         &mov    ("esi",wparam(0));      # ctx
 139         &mov    ("edi",wparam(1));      # inp
 140         &mov    ("eax",wparam(2));      # num
 141         &mov    ("ebx","esp");          # saved sp
 142
 143         &call   (&label("pic_point"));  # make it PIC!
 144 &set_label("pic_point");
 145         &blindpop($K256);
 146         &lea    ($K256,&DWP(&label("K256")."-".&label("pic_point"),$K256));
 147
 148         &sub    ("esp",16);
 149         &and    ("esp",-64);
 150
 151         &shl    ("eax",6);
 152         &add    ("eax","edi");
 153         &mov    (&DWP(0,"esp"),"esi");  # ctx
 154         &mov    (&DWP(4,"esp"),"edi");  # inp
 155         &mov    (&DWP(8,"esp"),"eax");  # inp+num*128
 156         &mov    (&DWP(12,"esp"),"ebx"); # saved sp
 157                                                 if (!$i386) {
 158         &picmeup("edx","OPENSSL_ia32cap_P",$K256,&label("K256"));
 159         &mov    ("ecx",&DWP(0,"edx"));
 160         &mov    ("edx",&DWP(4,"edx"));
 161         &test   ("ecx",1<<20);          # check for P4
 162         &jnz    (&label("loop"));
 163         &and    ("ecx",1<<30);          # mask "Intel CPU" bit
 164         &and    ("edx",1<<28);          # mask AVX bit
 165         &or     ("ecx","edx");
 166         &cmp    ("ecx",1<<28|1<<30);
 167         &je     (&label("loop_shrd"));
 168                                                 if ($unroll_after) {
 169         &sub    ("eax","edi");
 170         &cmp    ("eax",$unroll_after);
 171         &jae    (&label("unrolled"));
 172                                                 } }
 173         &jmp    (&label("loop"));
 174
 175 sub COMPACT_LOOP() {
 176 my $suffix=shift;
 177
 178 &set_label("loop$suffix",16);
 179     # copy input block to stack reversing byte and dword order
 180     for($i=0;$i<4;$i++) {
 181         &mov    ("eax",&DWP($i*16+0,"edi"));
 182         &mov    ("ebx",&DWP($i*16+4,"edi"));
 183         &mov    ("ecx",&DWP($i*16+8,"edi"));
 184         &bswap  ("eax");
 185         &mov    ("edx",&DWP($i*16+12,"edi"));
 186         &bswap  ("ebx");
 187         &push   ("eax");
 188         &bswap  ("ecx");
 189         &push   ("ebx");
 190         &bswap  ("edx");
 191         &push   ("ecx");
 192         &push   ("edx");
 193     }
 194         &add    ("edi",64);
 195         &lea    ("esp",&DWP(-4*9,"esp"));# place for A,B,C,D,E,F,G,H
 196         &mov    (&DWP(4*(9+16)+4,"esp"),"edi");
 197
 198         # copy ctx->h[0-7] to A,B,C,D,E,F,G,H on stack
 199         &mov    ($A,&DWP(0,"esi"));
 200         &mov    ("ebx",&DWP(4,"esi"));
 201         &mov    ("ecx",&DWP(8,"esi"));
 202         &mov    ("edi",&DWP(12,"esi"));
 203         # &mov  ($Aoff,$A);
 204         &mov    ($Boff,"ebx");
 205         &xor    ("ebx","ecx");
 206         &mov    ($Coff,"ecx");
 207         &mov    ($Doff,"edi");
 208         &mov    (&DWP(0,"esp"),"ebx");  # magic
 209         &mov    ($E,&DWP(16,"esi"));
 210         &mov    ("ebx",&DWP(20,"esi"));
 211         &mov    ("ecx",&DWP(24,"esi"));
 212         &mov    ("edi",&DWP(28,"esi"));
 213         # &mov  ($Eoff,$E);
 214         &mov    ($Foff,"ebx");
 215         &mov    ($Goff,"ecx");
 216         &mov    ($Hoff,"edi");
 217
 218 &set_label("00_15$suffix",16);
 219
 220         &BODY_00_15();
 221
 222         &cmp    ("esi",0xc19bf174);
 223         &jne    (&label("00_15$suffix"));
 224
 225         &mov    ("ecx",&DWP(4*(9+15+16-1),"esp"));      # preloaded in BODY_00_15(1)
 226         &jmp    (&label("16_63$suffix"));
 227
 228 &set_label("16_63$suffix",16);
 229
 230         &BODY_16_63();
 231
 232         &cmp    ("esi",0xc67178f2);
 233         &jne    (&label("16_63$suffix"));
 234
 235         &mov    ("esi",&DWP(4*(9+16+64)+0,"esp"));#ctx
 236         # &mov  ($A,$Aoff);
 237         &mov    ("ebx",$Boff);
 238         # &mov  ("edi",$Coff);
 239         &mov    ("ecx",$Doff);
 240         &add    ($A,&DWP(0,"esi"));
 241         &add    ("ebx",&DWP(4,"esi"));
 242         &add    ("edi",&DWP(8,"esi"));
 243         &add    ("ecx",&DWP(12,"esi"));
 244         &mov    (&DWP(0,"esi"),$A);
 245         &mov    (&DWP(4,"esi"),"ebx");
 246         &mov    (&DWP(8,"esi"),"edi");
 247         &mov    (&DWP(12,"esi"),"ecx");
 248         # &mov  ($E,$Eoff);
 249         &mov    ("eax",$Foff);
 250         &mov    ("ebx",$Goff);
 251         &mov    ("ecx",$Hoff);
 252         &mov    ("edi",&DWP(4*(9+16+64)+4,"esp"));#inp
 253         &add    ($E,&DWP(16,"esi"));
 254         &add    ("eax",&DWP(20,"esi"));
 255         &add    ("ebx",&DWP(24,"esi"));
 256         &add    ("ecx",&DWP(28,"esi"));
 257         &mov    (&DWP(16,"esi"),$E);
 258         &mov    (&DWP(20,"esi"),"eax");
 259         &mov    (&DWP(24,"esi"),"ebx");
 260         &mov    (&DWP(28,"esi"),"ecx");
 261
 262         &lea    ("esp",&DWP(4*(9+16+64),"esp"));# destroy frame
 263         &sub    ($K256,4*64);                   # rewind K
 264
 265         &cmp    ("edi",&DWP(8,"esp"));          # are we done yet?
 266         &jb     (&label("loop$suffix"));
 267 }
 268         &COMPACT_LOOP();
 269         &mov    ("esp",&DWP(12,"esp"));         # restore sp
 270 &function_end_A();
 271                                                 if (!$i386) {
 272         # ~20% improvement on Sandy Bridge
 273         local *ror = sub { &shrd(@_[0],@_) };
 274         &COMPACT_LOOP("_shrd");
 275         &mov    ("esp",&DWP(12,"esp"));         # restore sp
 276 &function_end_A();
 277                                                 }
 278
 279 &set_label("K256",64);  # Yes! I keep it in the code segment!
 280 @K256=( 0x428a2f98,0x71374491,0xb5c0fbcf,0xe9b5dba5,
 281         0x3956c25b,0x59f111f1,0x923f82a4,0xab1c5ed5,
 282         0xd807aa98,0x12835b01,0x243185be,0x550c7dc3,
 283         0x72be5d74,0x80deb1fe,0x9bdc06a7,0xc19bf174,
 284         0xe49b69c1,0xefbe4786,0x0fc19dc6,0x240ca1cc,
 285         0x2de92c6f,0x4a7484aa,0x5cb0a9dc,0x76f988da,
 286         0x983e5152,0xa831c66d,0xb00327c8,0xbf597fc7,
 287         0xc6e00bf3,0xd5a79147,0x06ca6351,0x14292967,
 288         0x27b70a85,0x2e1b2138,0x4d2c6dfc,0x53380d13,
 289         0x650a7354,0x766a0abb,0x81c2c92e,0x92722c85,
 290         0xa2bfe8a1,0xa81a664b,0xc24b8b70,0xc76c51a3,
 291         0xd192e819,0xd6990624,0xf40e3585,0x106aa070,
 292         0x19a4c116,0x1e376c08,0x2748774c,0x34b0bcb5,
 293         0x391c0cb3,0x4ed8aa4a,0x5b9cca4f,0x682e6ff3,
 294         0x748f82ee,0x78a5636f,0x84c87814,0x8cc70208,
 295         0x90befffa,0xa4506ceb,0xbef9a3f7,0xc67178f2     );
 296 &data_word(@K256);
 297 &data_word(0x00010203,0x04050607,0x08090a0b,0x0c0d0e0f);
 298
 299 if (!$i386 && $unroll_after) {
 300 my @AH=($A,$K256);
 301
 302 &set_label("unrolled",16);
 303         &lea    ("esp",&DWP(-96,"esp"));
 304         # copy ctx->h[0-7] to A,B,C,D,E,F,G,H on stack
 305         &mov    ($AH[0],&DWP(0,"esi"));
 306         &mov    ($AH[1],&DWP(4,"esi"));
 307         &mov    ("ecx",&DWP(8,"esi"));
 308         &mov    ("ebx",&DWP(12,"esi"));
 309         #&mov   (&DWP(0,"esp"),$AH[0]);
 310         &mov    (&DWP(4,"esp"),$AH[1]);
 311         &xor    ($AH[1],"ecx");         # magic
 312         &mov    (&DWP(8,"esp"),"ecx");
 313         &mov    (&DWP(12,"esp"),"ebx");
 314         &mov    ($E,&DWP(16,"esi"));
 315         &mov    ("ebx",&DWP(20,"esi"));
 316         &mov    ("ecx",&DWP(24,"esi"));
 317         &mov    ("esi",&DWP(28,"esi"));
 318         #&mov   (&DWP(16,"esp"),$E);
 319         &mov    (&DWP(20,"esp"),"ebx");
 320         &mov    (&DWP(24,"esp"),"ecx");
 321         &mov    (&DWP(28,"esp"),"esi");
 322         &jmp    (&label("grand_loop"));
 323
 324 &set_label("grand_loop",16);
 325     # copy input block to stack reversing byte order
 326     for($i=0;$i<5;$i++) {
 327         &mov    ("ebx",&DWP(12*$i+0,"edi"));
 328         &mov    ("ecx",&DWP(12*$i+4,"edi"));
 329         &bswap  ("ebx");
 330         &mov    ("esi",&DWP(12*$i+8,"edi"));
 331         &bswap  ("ecx");
 332         &mov    (&DWP(32+12*$i+0,"esp"),"ebx");
 333         &bswap  ("esi");
 334         &mov    (&DWP(32+12*$i+4,"esp"),"ecx");
 335         &mov    (&DWP(32+12*$i+8,"esp"),"esi");
 336     }
 337         &mov    ("ebx",&DWP($i*12,"edi"));
 338         &add    ("edi",64);
 339         &bswap  ("ebx");
 340         &mov    (&DWP(96+4,"esp"),"edi");
 341         &mov    (&DWP(32+12*$i,"esp"),"ebx");
 342
 343     my ($t1,$t2) = ("ecx","esi");
 344     my ($a,$b,$c,$d,$e,$f,$g,$h)=(0..7);        # offsets
 345     sub off { &DWP(4*(((shift)-$i)&7),"esp"); }
 346
 347     for ($i=0;$i<64;$i++) {
 348
 349       if ($i>=16) {
 350         &mov    ($T,$t1);                       # $t1 is preloaded
 351         # &mov  ($t2,&DWP(32+4*(($i+14)&15),"esp"));
 352         &ror    ($t1,18-7);
 353          &mov   ("edi",$t2);
 354         &ror    ($t2,19-17);
 355          &xor   ($t1,$T);
 356          &shr   ($T,3);
 357         &ror    ($t1,7);
 358          &xor   ($t2,"edi");
 359          &xor   ($T,$t1);                       # T = sigma0(X[-15])
 360         &ror    ($t2,17);
 361          &add   ($T,&DWP(32+4*($i&15),"esp"));  # T += X[-16]
 362         &shr    ("edi",10);
 363          &add   ($T,&DWP(32+4*(($i+9)&15),"esp"));      # T += X[-7]
 364         #&xor   ("edi",$t2)                     # sigma1(X[-2])
 365         # &add  ($T,"edi");                     # T += sigma1(X[-2])
 366         # &mov  (&DWP(4*(9+15),"esp"),$T);      # save X[0]
 367       }
 368         &mov    ($t1,$E);
 369          &xor   ("edi",$t2)                     if ($i>=16);    # sigma1(X[-2])
 370          &mov   ($t2,&off($f));
 371         &ror    ($E,25-11);
 372          &add   ($T,"edi")                      if ($i>=16);    # T += sigma1(X[-2])
 373          &mov   ("edi",&off($g));
 374         &xor    ($E,$t1);
 375          &mov   ($T,&DWP(32+4*($i&15),"esp"))   if ($i<16);     # X[i]
 376          &mov   (&DWP(32+4*($i&15),"esp"),$T)   if ($i>=16 && $i<62);   # save X[0]
 377          &xor   ($t2,"edi");
 378         &ror    ($E,11-6);
 379          &and   ($t2,$t1);
 380          &mov   (&off($e),$t1);         # save $E, modulo-scheduled
 381         &xor    ($E,$t1);
 382          &add   ($T,&off($h));          # T += h
 383          &xor   ("edi",$t2);            # Ch(e,f,g)
 384         &ror    ($E,6);                 # Sigma1(e)
 385          &mov   ($t1,$AH[0]);
 386          &add   ($T,"edi");             # T += Ch(e,f,g)
 387
 388         &ror    ($t1,22-13);
 389          &mov   ($t2,$AH[0]);
 390          &mov   ("edi",&off($b));
 391         &xor    ($t1,$AH[0]);
 392          &mov   (&off($a),$AH[0]);      # save $A, modulo-scheduled
 393          &xor   ($AH[0],"edi");         # a ^= b, (b^c) in next round
 394         &ror    ($t1,13-2);
 395          &and   ($AH[1],$AH[0]);        # (b^c) &= (a^b)
 396          &lea   ($E,&DWP(@K256[$i],$T,$E));     # T += Sigma1(1)+K[i]
 397         &xor    ($t1,$t2);
 398          &xor   ($AH[1],"edi");         # h = Maj(a,b,c) = Ch(a^b,c,b)
 399          &mov   ($t2,&DWP(32+4*(($i+2)&15),"esp"))      if ($i>=15 && $i<63);
 400         &ror    ($t1,2);                # Sigma0(a)
 401
 402          &add   ($AH[1],$E);            # h += T
 403          &add   ($E,&off($d));          # d += T
 404         &add    ($AH[1],$t1);           # h += Sigma0(a)
 405          &mov   ($t1,&DWP(32+4*(($i+15)&15),"esp"))     if ($i>=15 && $i<63);
 406
 407         @AH = reverse(@AH);             # rotate(a,h)
 408         ($t1,$t2) = ($t2,$t1);          # rotate(t1,t2)
 409     }
 410         &mov    ("esi",&DWP(96,"esp")); #ctx
 411                                         #&mov   ($AH[0],&DWP(0,"esp"));
 412         &xor    ($AH[1],"edi");         #&mov   ($AH[1],&DWP(4,"esp"));
 413                                         #&mov   ("edi", &DWP(8,"esp"));
 414         &mov    ("ecx",&DWP(12,"esp"));
 415         &add    ($AH[0],&DWP(0,"esi"));
 416         &add    ($AH[1],&DWP(4,"esi"));
 417         &add    ("edi",&DWP(8,"esi"));
 418         &add    ("ecx",&DWP(12,"esi"));
 419         &mov    (&DWP(0,"esi"),$AH[0]);
 420         &mov    (&DWP(4,"esi"),$AH[1]);
 421         &mov    (&DWP(8,"esi"),"edi");
 422         &mov    (&DWP(12,"esi"),"ecx");
 423          #&mov  (&DWP(0,"esp"),$AH[0]);
 424          &mov   (&DWP(4,"esp"),$AH[1]);
 425          &xor   ($AH[1],"edi");         # magic
 426          &mov   (&DWP(8,"esp"),"edi");
 427          &mov   (&DWP(12,"esp"),"ecx");
 428         #&mov   ($E,&DWP(16,"esp"));
 429         &mov    ("edi",&DWP(20,"esp"));
 430         &mov    ("ebx",&DWP(24,"esp"));
 431         &mov    ("ecx",&DWP(28,"esp"));
 432         &add    ($E,&DWP(16,"esi"));
 433         &add    ("edi",&DWP(20,"esi"));
 434         &add    ("ebx",&DWP(24,"esi"));
 435         &add    ("ecx",&DWP(28,"esi"));
 436         &mov    (&DWP(16,"esi"),$E);
 437         &mov    (&DWP(20,"esi"),"edi");
 438         &mov    (&DWP(24,"esi"),"ebx");
 439         &mov    (&DWP(28,"esi"),"ecx");
 440          #&mov  (&DWP(16,"esp"),$E);
 441          &mov   (&DWP(20,"esp"),"edi");
 442         &mov    ("edi",&DWP(96+4,"esp"));       # inp
 443          &mov   (&DWP(24,"esp"),"ebx");
 444          &mov   (&DWP(28,"esp"),"ecx");
 445
 446         &cmp    ("edi",&DWP(96+8,"esp"));       # are we done yet?
 447         &jb     (&label("grand_loop"));
 448
 449         &mov    ("esp",&DWP(96+12,"esp"));      # restore sp
 450 &function_end_A();
 451 }
 452 &function_end_B("sha256_block_data_order");
 453 &asciz("SHA256 block transform for x86, CRYPTOGAMS by <appro\@openssl.org>");
 454
 455 &asm_finish();