Make the RSA structure opaque

[openssl.git] / crypto / aes / asm / bsaes-x86_64.pl
diff --git a/crypto/aes/asm/bsaes-x86_64.pl b/crypto/aes/asm/bsaes-x86_64.pl

index edc70fa1bec7d28969e7e72318ee1dc050332d03..3f7d33c45bce7154a54789eb6c1a6902b17ad3fa 100644 (file)
--- a/crypto/aes/asm/bsaes-x86_64.pl
+++ b/crypto/aes/asm/bsaes-x86_64.pl
@@ -38,8 +38,9 @@
  #              Emilia's        this(*)         difference
  #
  # Core 2       9.30            8.69            +7%
-# Nehalem(**)  7.63            6.98            +9%
-# Atom         17.1            17.4            -2%(***)
+# Nehalem(**)  7.63            6.88            +11%
+# Atom         17.1            16.4            +4%
+# Silvermont   -               12.9
  #
  # (*)  Comparison is not completely fair, because "this" is ECB,
  #      i.e. no extra processing such as counter values calculation
@@ -50,14 +51,6 @@
  # (**) Results were collected on Westmere, which is considered to
  #      be equivalent to Nehalem for this code.
  #
-# (***)        Slowdown on Atom is rather strange per se, because original
-#      implementation has a number of 9+-bytes instructions, which
-#      are bad for Atom front-end, and which I eliminated completely.
-#      In attempt to address deterioration sbox() was tested in FP
-#      SIMD "domain" (movaps instead of movdqa, xorps instead of
-#      pxor, etc.). While it resulted in nominal 4% improvement on
-#      Atom, it hurted Westmere by more than 2x factor.
-#
  # As for key schedule conversion subroutine. Interface to OpenSSL
  # relies on per-invocation on-the-fly conversion. This naturally
  # has impact on performance, especially for short inputs. Conversion
@@ -65,12 +58,12 @@
  # function is:
  #
  #              conversion      conversion/8x block
-# Core 2       410             0.37
-# Nehalem      310             0.35
-# Atom         570             0.26
+# Core 2       240             0.22
+# Nehalem      180             0.20
+# Atom         430             0.20
  #
  # The ratio values mean that 128-byte blocks will be processed
-# 21-27% slower, 256-byte blocks - 12-16%, 384-byte blocks - 8-11%,
+# 16-18% slower, 256-byte blocks - 9-10%, 384-byte blocks - 6-7%,
  # etc. Then keep in mind that input sizes not divisible by 128 are
  # *effectively* slower, especially shortest ones, e.g. consecutive
  # 144-byte blocks are processed 44% slower than one would expect,
@@ -83,8 +76,10 @@
  # Add decryption procedure. Performance in CPU cycles spent to decrypt
  # one byte out of 4096-byte buffer with 128-bit key is:
  #
-# Core 2       11.0
-# Nehalem      9.16
+# Core 2       9.98
+# Nehalem      7.80
+# Atom         17.9
+# Silvermont   14.0
  #
  # November 2011.
  #
@@ -104,7 +99,8 @@ $0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;
  ( $xlate="${dir}../../perlasm/x86_64-xlate.pl" and -f $xlate) or
  die "can't locate x86_64-xlate.pl";
  
-open STDOUT,"| $^X $xlate $flavour $output";
+open OUT,"| \"$^X\" $xlate $flavour $output";
+*STDOUT=*OUT;
  
  my ($inp,$out,$len,$key,$ivp)=("%rdi","%rsi","%rdx","%rcx");
  my @XMM=map("%xmm$_",(15,0..14));      # best on Atom, +10% over (0..15)
@@ -432,21 +428,21 @@ my $mask=pop;
  $code.=<<___;
         pxor    0x00($key),@x[0]
         pxor    0x10($key),@x[1]
-       pshufb  $mask,@x[0]
         pxor    0x20($key),@x[2]
-       pshufb  $mask,@x[1]
         pxor    0x30($key),@x[3]
-       pshufb  $mask,@x[2]
+       pshufb  $mask,@x[0]
+       pshufb  $mask,@x[1]
         pxor    0x40($key),@x[4]
-       pshufb  $mask,@x[3]
         pxor    0x50($key),@x[5]
-       pshufb  $mask,@x[4]
+       pshufb  $mask,@x[2]
+       pshufb  $mask,@x[3]
         pxor    0x60($key),@x[6]
-       pshufb  $mask,@x[5]
         pxor    0x70($key),@x[7]
+       pshufb  $mask,@x[4]
+       pshufb  $mask,@x[5]
         pshufb  $mask,@x[6]
-       lea     0x80($key),$key
         pshufb  $mask,@x[7]
+       lea     0x80($key),$key
  ___
  }
  
@@ -454,6 +450,7 @@ sub MixColumns {
  # modified to emit output in order suitable for feeding back to aesenc[last]
  my @x=@_[0..7];
  my @t=@_[8..15];
+my $inv=@_[16];        # optional
  $code.=<<___;
         pshufd  \$0x93, @x[0], @t[0]    # x0 <<< 32
         pshufd  \$0x93, @x[1], @t[1]
@@ -495,7 +492,8 @@ $code.=<<___;
         pxor    @t[4], @t[0]
          pshufd \$0x4E, @x[2], @x[6]
         pxor    @t[5], @t[1]
-
+___
+$code.=<<___ if (!$inv);
         pxor    @t[3], @x[4]
         pxor    @t[7], @x[5]
         pxor    @t[6], @x[3]
@@ -503,9 +501,20 @@ $code.=<<___;
         pxor    @t[2], @x[6]
          movdqa @t[1], @x[7]
  ___
+$code.=<<___ if ($inv);
+       pxor    @x[4], @t[3]
+       pxor    @t[7], @x[5]
+       pxor    @x[3], @t[6]
+        movdqa @t[0], @x[3]
+       pxor    @t[2], @x[6]
+        movdqa @t[6], @x[2]
+        movdqa @t[1], @x[7]
+        movdqa @x[6], @x[4]
+        movdqa @t[3], @x[6]
+___
  }
  
-sub InvMixColumns {
+sub InvMixColumns_orig {
  my @x=@_[0..7];
  my @t=@_[8..15];
  
@@ -659,6 +668,54 @@ $code.=<<___;
  ___
  }
  
+sub InvMixColumns {
+my @x=@_[0..7];
+my @t=@_[8..15];
+
+# Thanks to Jussi Kivilinna for providing pointer to
+#
+# | 0e 0b 0d 09 |   | 02 03 01 01 |   | 05 00 04 00 |
+# | 09 0e 0b 0d | = | 01 02 03 01 | x | 00 05 00 04 |
+# | 0d 09 0e 0b |   | 01 01 02 03 |   | 04 00 05 00 |
+# | 0b 0d 09 0e |   | 03 01 01 02 |   | 00 04 00 05 |
+
+$code.=<<___;
+       # multiplication by 0x05-0x00-0x04-0x00
+       pshufd  \$0x4E, @x[0], @t[0]
+       pshufd  \$0x4E, @x[6], @t[6]
+       pxor    @x[0], @t[0]
+       pshufd  \$0x4E, @x[7], @t[7]
+       pxor    @x[6], @t[6]
+       pshufd  \$0x4E, @x[1], @t[1]
+       pxor    @x[7], @t[7]
+       pshufd  \$0x4E, @x[2], @t[2]
+       pxor    @x[1], @t[1]
+       pshufd  \$0x4E, @x[3], @t[3]
+       pxor    @x[2], @t[2]
+        pxor   @t[6], @x[0]
+        pxor   @t[6], @x[1]
+       pshufd  \$0x4E, @x[4], @t[4]
+       pxor    @x[3], @t[3]
+        pxor   @t[0], @x[2]
+        pxor   @t[1], @x[3]
+       pshufd  \$0x4E, @x[5], @t[5]
+       pxor    @x[4], @t[4]
+        pxor   @t[7], @x[1]
+        pxor   @t[2], @x[4]
+       pxor    @x[5], @t[5]
+
+        pxor   @t[7], @x[2]
+        pxor   @t[6], @x[3]
+        pxor   @t[6], @x[4]
+        pxor   @t[3], @x[5]
+        pxor   @t[4], @x[6]
+        pxor   @t[7], @x[4]
+        pxor   @t[7], @x[5]
+        pxor   @t[5], @x[7]
+___
+       &MixColumns     (@x,@t,1);      # flipped 2<->3 and 4<->6
+}
+
  sub aesenc {                           # not used
  my @b=@_[0..7];
  my @t=@_[8..15];
@@ -754,21 +811,21 @@ _bsaes_encrypt8:
  
         movdqa  ($key), @XMM[9]         # round 0 key
         lea     0x10($key), $key
-       movdqa  0x60($const), @XMM[8]   # .LM0SR
+       movdqa  0x50($const), @XMM[8]   # .LM0SR
         pxor    @XMM[9], @XMM[0]        # xor with round0 key
         pxor    @XMM[9], @XMM[1]
-        pshufb @XMM[8], @XMM[0]
         pxor    @XMM[9], @XMM[2]
-        pshufb @XMM[8], @XMM[1]
         pxor    @XMM[9], @XMM[3]
-        pshufb @XMM[8], @XMM[2]
+        pshufb @XMM[8], @XMM[0]
+        pshufb @XMM[8], @XMM[1]
         pxor    @XMM[9], @XMM[4]
-        pshufb @XMM[8], @XMM[3]
         pxor    @XMM[9], @XMM[5]
-        pshufb @XMM[8], @XMM[4]
+        pshufb @XMM[8], @XMM[2]
+        pshufb @XMM[8], @XMM[3]
         pxor    @XMM[9], @XMM[6]
-        pshufb @XMM[8], @XMM[5]
         pxor    @XMM[9], @XMM[7]
+        pshufb @XMM[8], @XMM[4]
+        pshufb @XMM[8], @XMM[5]
          pshufb @XMM[8], @XMM[6]
          pshufb @XMM[8], @XMM[7]
  _bsaes_encrypt8_bitslice:
@@ -821,18 +878,18 @@ _bsaes_decrypt8:
         movdqa  -0x30($const), @XMM[8]  # .LM0ISR
         pxor    @XMM[9], @XMM[0]        # xor with round0 key
         pxor    @XMM[9], @XMM[1]
-        pshufb @XMM[8], @XMM[0]
         pxor    @XMM[9], @XMM[2]
-        pshufb @XMM[8], @XMM[1]
         pxor    @XMM[9], @XMM[3]
-        pshufb @XMM[8], @XMM[2]
+        pshufb @XMM[8], @XMM[0]
+        pshufb @XMM[8], @XMM[1]
         pxor    @XMM[9], @XMM[4]
-        pshufb @XMM[8], @XMM[3]
         pxor    @XMM[9], @XMM[5]
-        pshufb @XMM[8], @XMM[4]
+        pshufb @XMM[8], @XMM[2]
+        pshufb @XMM[8], @XMM[3]
         pxor    @XMM[9], @XMM[6]
-        pshufb @XMM[8], @XMM[5]
         pxor    @XMM[9], @XMM[7]
+        pshufb @XMM[8], @XMM[4]
+        pshufb @XMM[8], @XMM[5]
          pshufb @XMM[8], @XMM[6]
          pshufb @XMM[8], @XMM[7]
  ___
@@ -905,46 +962,82 @@ $code.=<<___;
  .type  _bsaes_key_convert,\@abi-omnipotent
  .align 16
  _bsaes_key_convert:
-       lea     .LBS1(%rip), $const
+       lea     .Lmasks(%rip), $const
         movdqu  ($inp), %xmm7           # load round 0 key
-       movdqa  -0x10($const), %xmm8    # .LBS0
-       movdqa  0x00($const), %xmm9     # .LBS1
-       movdqa  0x10($const), %xmm10    # .LBS2
-       movdqa  0x40($const), %xmm13    # .LM0
-       movdqa  0x60($const), %xmm14    # .LNOT
-
-       movdqu  0x10($inp), %xmm6       # load round 1 key
         lea     0x10($inp), $inp
+       movdqa  0x00($const), %xmm0     # 0x01...
+       movdqa  0x10($const), %xmm1     # 0x02...
+       movdqa  0x20($const), %xmm2     # 0x04...
+       movdqa  0x30($const), %xmm3     # 0x08...
+       movdqa  0x40($const), %xmm4     # .LM0
+       pcmpeqd %xmm5, %xmm5            # .LNOT
+
+       movdqu  ($inp), %xmm6           # load round 1 key
         movdqa  %xmm7, ($out)           # save round 0 key
         lea     0x10($out), $out
         dec     $rounds
         jmp     .Lkey_loop
  .align 16
  .Lkey_loop:
-       pshufb  %xmm13, %xmm6           # .LM0
-       movdqa  %xmm6, %xmm7
-___
-       &bitslice_key   (map("%xmm$_",(0..7, 8..12)));
-$code.=<<___;
-       pxor    %xmm14, %xmm5           # "pnot"
-       pxor    %xmm14, %xmm6
-       pxor    %xmm14, %xmm0
-       pxor    %xmm14, %xmm1
-       lea     0x10($inp), $inp
-       movdqa  %xmm0, 0x00($out)       # write bit-sliced round key
-       movdqa  %xmm1, 0x10($out)
-       movdqa  %xmm2, 0x20($out)
-       movdqa  %xmm3, 0x30($out)
-       movdqa  %xmm4, 0x40($out)
-       movdqa  %xmm5, 0x50($out)
-       movdqa  %xmm6, 0x60($out)
-       movdqa  %xmm7, 0x70($out)
+       pshufb  %xmm4, %xmm6            # .LM0
+
+       movdqa  %xmm0,  %xmm8
+       movdqa  %xmm1,  %xmm9
+
+       pand    %xmm6,  %xmm8
+       pand    %xmm6,  %xmm9
+       movdqa  %xmm2,  %xmm10
+       pcmpeqb %xmm0,  %xmm8
+       psllq   \$4,    %xmm0           # 0x10...
+       movdqa  %xmm3,  %xmm11
+       pcmpeqb %xmm1,  %xmm9
+       psllq   \$4,    %xmm1           # 0x20...
+
+       pand    %xmm6,  %xmm10
+       pand    %xmm6,  %xmm11
+       movdqa  %xmm0,  %xmm12
+       pcmpeqb %xmm2,  %xmm10
+       psllq   \$4,    %xmm2           # 0x40...
+       movdqa  %xmm1,  %xmm13
+       pcmpeqb %xmm3,  %xmm11
+       psllq   \$4,    %xmm3           # 0x80...
+
+       movdqa  %xmm2,  %xmm14
+       movdqa  %xmm3,  %xmm15
+        pxor   %xmm5,  %xmm8           # "pnot"
+        pxor   %xmm5,  %xmm9
+
+       pand    %xmm6,  %xmm12
+       pand    %xmm6,  %xmm13
+        movdqa %xmm8, 0x00($out)       # write bit-sliced round key
+       pcmpeqb %xmm0,  %xmm12
+       psrlq   \$4,    %xmm0           # 0x01...
+        movdqa %xmm9, 0x10($out)
+       pcmpeqb %xmm1,  %xmm13
+       psrlq   \$4,    %xmm1           # 0x02...
+        lea    0x10($inp), $inp
+
+       pand    %xmm6,  %xmm14
+       pand    %xmm6,  %xmm15
+        movdqa %xmm10, 0x20($out)
+       pcmpeqb %xmm2,  %xmm14
+       psrlq   \$4,    %xmm2           # 0x04...
+        movdqa %xmm11, 0x30($out)
+       pcmpeqb %xmm3,  %xmm15
+       psrlq   \$4,    %xmm3           # 0x08...
+        movdqu ($inp), %xmm6           # load next round key
+
+       pxor    %xmm5, %xmm13           # "pnot"
+       pxor    %xmm5, %xmm14
+       movdqa  %xmm12, 0x40($out)
+       movdqa  %xmm13, 0x50($out)
+       movdqa  %xmm14, 0x60($out)
+       movdqa  %xmm15, 0x70($out)
         lea     0x80($out),$out
-       movdqu  ($inp), %xmm6           # load next round key
         dec     $rounds
         jnz     .Lkey_loop
  
-       movdqa  0x70($const), %xmm7     # .L63
+       movdqa  0x50($const), %xmm7     # .L63
         #movdqa %xmm6, ($out)           # don't save last round key
         ret
  .size  _bsaes_key_convert,.-_bsaes_key_convert
@@ -1838,21 +1931,21 @@ $code.=<<___;
         movdqa  -0x10(%r11), @XMM[8]    # .LSWPUPM0SR
         pxor    @XMM[9], @XMM[0]        # xor with round0 key
         pxor    @XMM[9], @XMM[1]
-        pshufb @XMM[8], @XMM[0]
         pxor    @XMM[9], @XMM[2]
-        pshufb @XMM[8], @XMM[1]
         pxor    @XMM[9], @XMM[3]
-        pshufb @XMM[8], @XMM[2]
+        pshufb @XMM[8], @XMM[0]
+        pshufb @XMM[8], @XMM[1]
         pxor    @XMM[9], @XMM[4]
-        pshufb @XMM[8], @XMM[3]
         pxor    @XMM[9], @XMM[5]
-        pshufb @XMM[8], @XMM[4]
+        pshufb @XMM[8], @XMM[2]
+        pshufb @XMM[8], @XMM[3]
         pxor    @XMM[9], @XMM[6]
-        pshufb @XMM[8], @XMM[5]
         pxor    @XMM[9], @XMM[7]
+        pshufb @XMM[8], @XMM[4]
+        pshufb @XMM[8], @XMM[5]
          pshufb @XMM[8], @XMM[6]
-       lea     .LBS0(%rip), %r11       # constants table
          pshufb @XMM[8], @XMM[7]
+       lea     .LBS0(%rip), %r11       # constants table
         mov     %ebx,%r10d              # pass rounds
  
         call    _bsaes_encrypt8_bitslice
@@ -1894,6 +1987,7 @@ $code.=<<___;
         jmp     .Lctr_enc_done
  .align 16
  .Lctr_enc_loop_done:
+       add     \$8, $len
         movdqu  0x00($inp), @XMM[8]     # load input
         pxor    @XMM[8], @XMM[0]
         movdqu  @XMM[0], 0x00($out)     # write output
@@ -1989,6 +2083,8 @@ ___
  #      const unsigned char iv[16]);
  #
  my ($twmask,$twres,$twtmp)=@XMM[13..15];
+$arg6=~s/d$//;
+
  $code.=<<___;
  .globl bsaes_xts_encrypt
  .type  bsaes_xts_encrypt,\@abi-omnipotent
@@ -2799,14 +2895,8 @@ _bsaes_const:
         .quad   0x0504070600030201, 0x0f0e0d0c0a09080b
  .LSRM0:
         .quad   0x0304090e00050a0f, 0x01060b0c0207080d
-.LM0:
-       .quad   0x02060a0e03070b0f, 0x0004080c0105090d
  .LM0SR:
         .quad   0x0a0e02060f03070b, 0x0004080c05090d01
-.LNOT:         # magic constants
-       .quad   0xffffffffffffffff, 0xffffffffffffffff
-.L63:
-       .quad   0x6363636363636363, 0x6363636363636363
  .LSWPUP:       # byte-swap upper dword
         .quad   0x0706050403020100, 0x0c0d0e0f0b0a0908
  .LSWPUPM0SR:
@@ -2829,6 +2919,15 @@ _bsaes_const:
         .quad   0x0000000000000000, 0x0000000800000000
  .Lxts_magic:
         .long   0x87,0,1,0
+.Lmasks:
+       .quad   0x0101010101010101, 0x0101010101010101
+       .quad   0x0202020202020202, 0x0202020202020202
+       .quad   0x0404040404040404, 0x0404040404040404
+       .quad   0x0808080808080808, 0x0808080808080808
+.LM0:
+       .quad   0x02060a0e03070b0f, 0x0004080c0105090d
+.L63:
+       .quad   0x6363636363636363, 0x6363636363636363
  .asciz "Bit-sliced AES for x86_64/SSSE3, Emilia Käsper, Peter Schwabe, Andy Polyakov"
  .align 64
  .size  _bsaes_const,.-_bsaes_const