crypto/poly1305/asm/poly1305-armv8.pl

   1 #! /usr/bin/env perl
   2 # Copyright 2016 The OpenSSL Project Authors. All Rights Reserved.
   3 #
   4 # Licensed under the OpenSSL license (the "License").  You may not use
   5 # this file except in compliance with the License.  You can obtain a copy
   6 # in the file LICENSE in the source distribution or at
   7 # https://www.openssl.org/source/license.html
   8
   9 #
  10 # ====================================================================
  11 # Written by Andy Polyakov <appro@openssl.org> for the OpenSSL
  12 # project. The module is, however, dual licensed under OpenSSL and
  13 # CRYPTOGAMS licenses depending on where you obtain it. For further
  14 # details see http://www.openssl.org/~appro/cryptogams/.
  15 # ====================================================================
  16 #
  17 # This module implements Poly1305 hash for ARMv8.
  18 #
  19 # June 2015
  20 #
  21 # Numbers are cycles per processed byte with poly1305_blocks alone.
  22 #
  23 #               IALU/gcc-4.9    NEON
  24 #
  25 # Apple A7      1.86/+5%        0.72
  26 # Cortex-A53    2.69/+58%       1.47
  27 # Cortex-A57    2.70/+7%        1.14
  28 # Denver        1.64/+50%       1.18(*)
  29 # X-Gene        2.13/+68%       2.27
  30 #
  31 # (*)   estimate based on resources availability is less than 1.0,
  32 #       i.e. measured result is worse than expected, presumably binary
  33 #       translator is not almighty;
  34
  35 $flavour=shift;
  36 $output=shift;
  37
  38 $0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;
  39 ( $xlate="${dir}arm-xlate.pl" and -f $xlate ) or
  40 ( $xlate="${dir}../../perlasm/arm-xlate.pl" and -f $xlate) or
  41 die "can't locate arm-xlate.pl";
  42
  43 open OUT,"| \"$^X\" $xlate $flavour $output";
  44 *STDOUT=*OUT;
  45
  46 my ($ctx,$inp,$len,$padbit) = map("x$_",(0..3));
  47 my ($mac,$nonce)=($inp,$len);
  48
  49 my ($h0,$h1,$h2,$r0,$r1,$s1,$t0,$t1,$d0,$d1,$d2) = map("x$_",(4..14));
  50
  51 $code.=<<___;
  52 #include "arm_arch.h"
  53
  54 .text
  55
  56 // forward "declarations" are required for Apple
  57 .extern OPENSSL_armcap_P
  58 .globl  poly1305_blocks
  59 .globl  poly1305_emit
  60
  61 .globl  poly1305_init
  62 .type   poly1305_init,%function
  63 .align  5
  64 poly1305_init:
  65         cmp     $inp,xzr
  66         stp     xzr,xzr,[$ctx]          // zero hash value
  67         stp     xzr,xzr,[$ctx,#16]      // [along with is_base2_26]
  68
  69         csel    x0,xzr,x0,eq
  70         b.eq    .Lno_key
  71
  72 #ifdef  __ILP32__
  73         ldrsw   $t1,.LOPENSSL_armcap_P
  74 #else
  75         ldr     $t1,.LOPENSSL_armcap_P
  76 #endif
  77         adr     $t0,.LOPENSSL_armcap_P
  78
  79         ldp     $r0,$r1,[$inp]          // load key
  80         mov     $s1,#0xfffffffc0fffffff
  81         movk    $s1,#0x0fff,lsl#48
  82         ldr     w17,[$t0,$t1]
  83 #ifdef  __ARMEB__
  84         rev     $r0,$r0                 // flip bytes
  85         rev     $r1,$r1
  86 #endif
  87         and     $r0,$r0,$s1             // &=0ffffffc0fffffff
  88         and     $s1,$s1,#-4
  89         and     $r1,$r1,$s1             // &=0ffffffc0ffffffc
  90         stp     $r0,$r1,[$ctx,#32]      // save key value
  91
  92         tst     w17,#ARMV7_NEON
  93
  94         adr     $d0,poly1305_blocks
  95         adr     $r0,poly1305_blocks_neon
  96         adr     $d1,poly1305_emit
  97         adr     $r1,poly1305_emit_neon
  98
  99         csel    $d0,$d0,$r0,eq
 100         csel    $d1,$d1,$r1,eq
 101
 102         stp     $d0,$d1,[$len]
 103
 104         mov     x0,#1
 105 .Lno_key:
 106         ret
 107 .size   poly1305_init,.-poly1305_init
 108
 109 .type   poly1305_blocks,%function
 110 .align  5
 111 poly1305_blocks:
 112         ands    $len,$len,#-16
 113         b.eq    .Lno_data
 114
 115         ldp     $h0,$h1,[$ctx]          // load hash value
 116         ldp     $r0,$r1,[$ctx,#32]      // load key value
 117         ldr     $h2,[$ctx,#16]
 118         add     $s1,$r1,$r1,lsr#2       // s1 = r1 + (r1 >> 2)
 119         b       .Loop
 120
 121 .align  5
 122 .Loop:
 123         ldp     $t0,$t1,[$inp],#16      // load input
 124         sub     $len,$len,#16
 125 #ifdef  __ARMEB__
 126         rev     $t0,$t0
 127         rev     $t1,$t1
 128 #endif
 129         adds    $h0,$h0,$t0             // accumulate input
 130         adcs    $h1,$h1,$t1
 131
 132         mul     $d0,$h0,$r0             // h0*r0
 133         adc     $h2,$h2,$padbit
 134         umulh   $d1,$h0,$r0
 135
 136         mul     $t0,$h1,$s1             // h1*5*r1
 137         umulh   $t1,$h1,$s1
 138
 139         adds    $d0,$d0,$t0
 140         mul     $t0,$h0,$r1             // h0*r1
 141         adc     $d1,$d1,$t1
 142         umulh   $d2,$h0,$r1
 143
 144         adds    $d1,$d1,$t0
 145         mul     $t0,$h1,$r0             // h1*r0
 146         adc     $d2,$d2,xzr
 147         umulh   $t1,$h1,$r0
 148
 149         adds    $d1,$d1,$t0
 150         mul     $t0,$h2,$s1             // h2*5*r1
 151         adc     $d2,$d2,$t1
 152         mul     $t1,$h2,$r0             // h2*r0
 153
 154         adds    $d1,$d1,$t0
 155         adc     $d2,$d2,$t1
 156
 157         and     $t0,$d2,#-4             // final reduction
 158         and     $h2,$d2,#3
 159         add     $t0,$t0,$d2,lsr#2
 160         adds    $h0,$d0,$t0
 161         adcs    $h1,$d1,xzr
 162         adc     $h2,$h2,xzr
 163
 164         cbnz    $len,.Loop
 165
 166         stp     $h0,$h1,[$ctx]          // store hash value
 167         str     $h2,[$ctx,#16]
 168
 169 .Lno_data:
 170         ret
 171 .size   poly1305_blocks,.-poly1305_blocks
 172
 173 .type   poly1305_emit,%function
 174 .align  5
 175 poly1305_emit:
 176         ldp     $h0,$h1,[$ctx]          // load hash base 2^64
 177         ldr     $h2,[$ctx,#16]
 178         ldp     $t0,$t1,[$nonce]        // load nonce
 179
 180         adds    $d0,$h0,#5              // compare to modulus
 181         adcs    $d1,$h1,xzr
 182         adc     $d2,$h2,xzr
 183
 184         tst     $d2,#-4                 // see if it's carried/borrowed
 185
 186         csel    $h0,$h0,$d0,eq
 187         csel    $h1,$h1,$d1,eq
 188
 189 #ifdef  __ARMEB__
 190         ror     $t0,$t0,#32             // flip nonce words
 191         ror     $t1,$t1,#32
 192 #endif
 193         adds    $h0,$h0,$t0             // accumulate nonce
 194         adc     $h1,$h1,$t1
 195 #ifdef  __ARMEB__
 196         rev     $h0,$h0                 // flip output bytes
 197         rev     $h1,$h1
 198 #endif
 199         stp     $h0,$h1,[$mac]          // write result
 200
 201         ret
 202 .size   poly1305_emit,.-poly1305_emit
 203 ___
 204 my ($R0,$R1,$S1,$R2,$S2,$R3,$S3,$R4,$S4) = map("v$_.4s",(0..8));
 205 my ($IN01_0,$IN01_1,$IN01_2,$IN01_3,$IN01_4) = map("v$_.2s",(9..13));
 206 my ($IN23_0,$IN23_1,$IN23_2,$IN23_3,$IN23_4) = map("v$_.2s",(14..18));
 207 my ($ACC0,$ACC1,$ACC2,$ACC3,$ACC4) = map("v$_.2d",(19..23));
 208 my ($H0,$H1,$H2,$H3,$H4) = map("v$_.2s",(24..28));
 209 my ($T0,$T1,$MASK) = map("v$_",(29..31));
 210
 211 my ($in2,$zeros)=("x16","x17");
 212 my $is_base2_26 = $zeros;               # borrow
 213
 214 $code.=<<___;
 215 .type   poly1305_mult,%function
 216 .align  5
 217 poly1305_mult:
 218         mul     $d0,$h0,$r0             // h0*r0
 219         umulh   $d1,$h0,$r0
 220
 221         mul     $t0,$h1,$s1             // h1*5*r1
 222         umulh   $t1,$h1,$s1
 223
 224         adds    $d0,$d0,$t0
 225         mul     $t0,$h0,$r1             // h0*r1
 226         adc     $d1,$d1,$t1
 227         umulh   $d2,$h0,$r1
 228
 229         adds    $d1,$d1,$t0
 230         mul     $t0,$h1,$r0             // h1*r0
 231         adc     $d2,$d2,xzr
 232         umulh   $t1,$h1,$r0
 233
 234         adds    $d1,$d1,$t0
 235         mul     $t0,$h2,$s1             // h2*5*r1
 236         adc     $d2,$d2,$t1
 237         mul     $t1,$h2,$r0             // h2*r0
 238
 239         adds    $d1,$d1,$t0
 240         adc     $d2,$d2,$t1
 241
 242         and     $t0,$d2,#-4             // final reduction
 243         and     $h2,$d2,#3
 244         add     $t0,$t0,$d2,lsr#2
 245         adds    $h0,$d0,$t0
 246         adcs    $h1,$d1,xzr
 247         adc     $h2,$h2,xzr
 248
 249         ret
 250 .size   poly1305_mult,.-poly1305_mult
 251
 252 .type   poly1305_splat,%function
 253 .align  5
 254 poly1305_splat:
 255         and     x12,$h0,#0x03ffffff     // base 2^64 -> base 2^26
 256         ubfx    x13,$h0,#26,#26
 257         extr    x14,$h1,$h0,#52
 258         and     x14,x14,#0x03ffffff
 259         ubfx    x15,$h1,#14,#26
 260         extr    x16,$h2,$h1,#40
 261
 262         str     w12,[$ctx,#16*0]        // r0
 263         add     w12,w13,w13,lsl#2       // r1*5
 264         str     w13,[$ctx,#16*1]        // r1
 265         add     w13,w14,w14,lsl#2       // r2*5
 266         str     w12,[$ctx,#16*2]        // s1
 267         str     w14,[$ctx,#16*3]        // r2
 268         add     w14,w15,w15,lsl#2       // r3*5
 269         str     w13,[$ctx,#16*4]        // s2
 270         str     w15,[$ctx,#16*5]        // r3
 271         add     w15,w16,w16,lsl#2       // r4*5
 272         str     w14,[$ctx,#16*6]        // s3
 273         str     w16,[$ctx,#16*7]        // r4
 274         str     w15,[$ctx,#16*8]        // s4
 275
 276         ret
 277 .size   poly1305_splat,.-poly1305_splat
 278
 279 .type   poly1305_blocks_neon,%function
 280 .align  5
 281 poly1305_blocks_neon:
 282         ldr     $is_base2_26,[$ctx,#24]
 283         cmp     $len,#128
 284         b.hs    .Lblocks_neon
 285         cbz     $is_base2_26,poly1305_blocks
 286
 287 .Lblocks_neon:
 288         stp     x29,x30,[sp,#-80]!
 289         add     x29,sp,#0
 290
 291         ands    $len,$len,#-16
 292         b.eq    .Lno_data_neon
 293
 294         cbz     $is_base2_26,.Lbase2_64_neon
 295
 296         ldp     w10,w11,[$ctx]          // load hash value base 2^26
 297         ldp     w12,w13,[$ctx,#8]
 298         ldr     w14,[$ctx,#16]
 299
 300         tst     $len,#31
 301         b.eq    .Leven_neon
 302
 303         ldp     $r0,$r1,[$ctx,#32]      // load key value
 304
 305         add     $h0,x10,x11,lsl#26      // base 2^26 -> base 2^64
 306         lsr     $h1,x12,#12
 307         adds    $h0,$h0,x12,lsl#52
 308         add     $h1,$h1,x13,lsl#14
 309         adc     $h1,$h1,xzr
 310         lsr     $h2,x14,#24
 311         adds    $h1,$h1,x14,lsl#40
 312         adc     $d2,$h2,xzr             // can be partially reduced...
 313
 314         ldp     $d0,$d1,[$inp],#16      // load input
 315         sub     $len,$len,#16
 316         add     $s1,$r1,$r1,lsr#2       // s1 = r1 + (r1 >> 2)
 317
 318         and     $t0,$d2,#-4             // ... so reduce
 319         and     $h2,$d2,#3
 320         add     $t0,$t0,$d2,lsr#2
 321         adds    $h0,$h0,$t0
 322         adcs    $h1,$h1,xzr
 323         adc     $h2,$h2,xzr
 324
 325 #ifdef  __ARMEB__
 326         rev     $d0,$d0
 327         rev     $d1,$d1
 328 #endif
 329         adds    $h0,$h0,$d0             // accumulate input
 330         adcs    $h1,$h1,$d1
 331         adc     $h2,$h2,$padbit
 332
 333         bl      poly1305_mult
 334         ldr     x30,[sp,#8]
 335
 336         cbz     $padbit,.Lstore_base2_64_neon
 337
 338         and     x10,$h0,#0x03ffffff     // base 2^64 -> base 2^26
 339         ubfx    x11,$h0,#26,#26
 340         extr    x12,$h1,$h0,#52
 341         and     x12,x12,#0x03ffffff
 342         ubfx    x13,$h1,#14,#26
 343         extr    x14,$h2,$h1,#40
 344
 345         cbnz    $len,.Leven_neon
 346
 347         stp     w10,w11,[$ctx]          // store hash value base 2^26
 348         stp     w12,w13,[$ctx,#8]
 349         str     w14,[$ctx,#16]
 350         b       .Lno_data_neon
 351
 352 .align  4
 353 .Lstore_base2_64_neon:
 354         stp     $h0,$h1,[$ctx]          // store hash value base 2^64
 355         stp     $h2,xzr,[$ctx,#16]      // note that is_base2_26 is zeroed
 356         b       .Lno_data_neon
 357
 358 .align  4
 359 .Lbase2_64_neon:
 360         ldp     $r0,$r1,[$ctx,#32]      // load key value
 361
 362         ldp     $h0,$h1,[$ctx]          // load hash value base 2^64
 363         ldr     $h2,[$ctx,#16]
 364
 365         tst     $len,#31
 366         b.eq    .Linit_neon
 367
 368         ldp     $d0,$d1,[$inp],#16      // load input
 369         sub     $len,$len,#16
 370         add     $s1,$r1,$r1,lsr#2       // s1 = r1 + (r1 >> 2)
 371 #ifdef  __ARMEB__
 372         rev     $d0,$d0
 373         rev     $d1,$d1
 374 #endif
 375         adds    $h0,$h0,$d0             // accumulate input
 376         adcs    $h1,$h1,$d1
 377         adc     $h2,$h2,$padbit
 378
 379         bl      poly1305_mult
 380
 381 .Linit_neon:
 382         and     x10,$h0,#0x03ffffff     // base 2^64 -> base 2^26
 383         ubfx    x11,$h0,#26,#26
 384         extr    x12,$h1,$h0,#52
 385         and     x12,x12,#0x03ffffff
 386         ubfx    x13,$h1,#14,#26
 387         extr    x14,$h2,$h1,#40
 388
 389         stp     d8,d9,[sp,#16]          // meet ABI requirements
 390         stp     d10,d11,[sp,#32]
 391         stp     d12,d13,[sp,#48]
 392         stp     d14,d15,[sp,#64]
 393
 394         fmov    ${H0},x10
 395         fmov    ${H1},x11
 396         fmov    ${H2},x12
 397         fmov    ${H3},x13
 398         fmov    ${H4},x14
 399
 400         ////////////////////////////////// initialize r^n table
 401         mov     $h0,$r0                 // r^1
 402         add     $s1,$r1,$r1,lsr#2       // s1 = r1 + (r1 >> 2)
 403         mov     $h1,$r1
 404         mov     $h2,xzr
 405         add     $ctx,$ctx,#48+12
 406         bl      poly1305_splat
 407
 408         bl      poly1305_mult           // r^2
 409         sub     $ctx,$ctx,#4
 410         bl      poly1305_splat
 411
 412         bl      poly1305_mult           // r^3
 413         sub     $ctx,$ctx,#4
 414         bl      poly1305_splat
 415
 416         bl      poly1305_mult           // r^4
 417         sub     $ctx,$ctx,#4
 418         bl      poly1305_splat
 419         ldr     x30,[sp,#8]
 420
 421         add     $in2,$inp,#32
 422         adr     $zeros,.Lzeros
 423         subs    $len,$len,#64
 424         csel    $in2,$zeros,$in2,lo
 425
 426         mov     x4,#1
 427         str     x4,[$ctx,#-24]          // set is_base2_26
 428         sub     $ctx,$ctx,#48           // restore original $ctx
 429         b       .Ldo_neon
 430
 431 .align  4
 432 .Leven_neon:
 433         add     $in2,$inp,#32
 434         adr     $zeros,.Lzeros
 435         subs    $len,$len,#64
 436         csel    $in2,$zeros,$in2,lo
 437
 438         stp     d8,d9,[sp,#16]          // meet ABI requirements
 439         stp     d10,d11,[sp,#32]
 440         stp     d12,d13,[sp,#48]
 441         stp     d14,d15,[sp,#64]
 442
 443         fmov    ${H0},x10
 444         fmov    ${H1},x11
 445         fmov    ${H2},x12
 446         fmov    ${H3},x13
 447         fmov    ${H4},x14
 448
 449 .Ldo_neon:
 450         ldp     x8,x12,[$in2],#16       // inp[2:3] (or zero)
 451         ldp     x9,x13,[$in2],#48
 452
 453         lsl     $padbit,$padbit,#24
 454         add     x15,$ctx,#48
 455
 456 #ifdef  __ARMEB__
 457         rev     x8,x8
 458         rev     x12,x12
 459         rev     x9,x9
 460         rev     x13,x13
 461 #endif
 462         and     x4,x8,#0x03ffffff       // base 2^64 -> base 2^26
 463         and     x5,x9,#0x03ffffff
 464         ubfx    x6,x8,#26,#26
 465         ubfx    x7,x9,#26,#26
 466         add     x4,x4,x5,lsl#32         // bfi  x4,x5,#32,#32
 467         extr    x8,x12,x8,#52
 468         extr    x9,x13,x9,#52
 469         add     x6,x6,x7,lsl#32         // bfi  x6,x7,#32,#32
 470         fmov    $IN23_0,x4
 471         and     x8,x8,#0x03ffffff
 472         and     x9,x9,#0x03ffffff
 473         ubfx    x10,x12,#14,#26
 474         ubfx    x11,x13,#14,#26
 475         add     x12,$padbit,x12,lsr#40
 476         add     x13,$padbit,x13,lsr#40
 477         add     x8,x8,x9,lsl#32         // bfi  x8,x9,#32,#32
 478         fmov    $IN23_1,x6
 479         add     x10,x10,x11,lsl#32      // bfi  x10,x11,#32,#32
 480         add     x12,x12,x13,lsl#32      // bfi  x12,x13,#32,#32
 481         fmov    $IN23_2,x8
 482         fmov    $IN23_3,x10
 483         fmov    $IN23_4,x12
 484
 485         ldp     x8,x12,[$inp],#16       // inp[0:1]
 486         ldp     x9,x13,[$inp],#48
 487
 488         ld1     {$R0,$R1,$S1,$R2},[x15],#64
 489         ld1     {$S2,$R3,$S3,$R4},[x15],#64
 490         ld1     {$S4},[x15]
 491
 492 #ifdef  __ARMEB__
 493         rev     x8,x8
 494         rev     x12,x12
 495         rev     x9,x9
 496         rev     x13,x13
 497 #endif
 498         and     x4,x8,#0x03ffffff       // base 2^64 -> base 2^26
 499         and     x5,x9,#0x03ffffff
 500         ubfx    x6,x8,#26,#26
 501         ubfx    x7,x9,#26,#26
 502         add     x4,x4,x5,lsl#32         // bfi  x4,x5,#32,#32
 503         extr    x8,x12,x8,#52
 504         extr    x9,x13,x9,#52
 505         add     x6,x6,x7,lsl#32         // bfi  x6,x7,#32,#32
 506         fmov    $IN01_0,x4
 507         and     x8,x8,#0x03ffffff
 508         and     x9,x9,#0x03ffffff
 509         ubfx    x10,x12,#14,#26
 510         ubfx    x11,x13,#14,#26
 511         add     x12,$padbit,x12,lsr#40
 512         add     x13,$padbit,x13,lsr#40
 513         add     x8,x8,x9,lsl#32         // bfi  x8,x9,#32,#32
 514         fmov    $IN01_1,x6
 515         add     x10,x10,x11,lsl#32      // bfi  x10,x11,#32,#32
 516         add     x12,x12,x13,lsl#32      // bfi  x12,x13,#32,#32
 517         movi    $MASK.2d,#-1
 518         fmov    $IN01_2,x8
 519         fmov    $IN01_3,x10
 520         fmov    $IN01_4,x12
 521         ushr    $MASK.2d,$MASK.2d,#38
 522
 523         b.ls    .Lskip_loop
 524
 525 .align  4
 526 .Loop_neon:
 527         ////////////////////////////////////////////////////////////////
 528         // ((inp[0]*r^4+inp[2]*r^2+inp[4])*r^4+inp[6]*r^2
 529         // ((inp[1]*r^4+inp[3]*r^2+inp[5])*r^3+inp[7]*r
 530         //   \___________________/
 531         // ((inp[0]*r^4+inp[2]*r^2+inp[4])*r^4+inp[6]*r^2+inp[8])*r^2
 532         // ((inp[1]*r^4+inp[3]*r^2+inp[5])*r^4+inp[7]*r^2+inp[9])*r
 533         //   \___________________/ \____________________/
 534         //
 535         // Note that we start with inp[2:3]*r^2. This is because it
 536         // doesn't depend on reduction in previous iteration.
 537         ////////////////////////////////////////////////////////////////
 538         // d4 = h0*r4 + h1*r3   + h2*r2   + h3*r1   + h4*r0
 539         // d3 = h0*r3 + h1*r2   + h2*r1   + h3*r0   + h4*5*r4
 540         // d2 = h0*r2 + h1*r1   + h2*r0   + h3*5*r4 + h4*5*r3
 541         // d1 = h0*r1 + h1*r0   + h2*5*r4 + h3*5*r3 + h4*5*r2
 542         // d0 = h0*r0 + h1*5*r4 + h2*5*r3 + h3*5*r2 + h4*5*r1
 543
 544         subs    $len,$len,#64
 545         umull   $ACC4,$IN23_0,${R4}[2]
 546         csel    $in2,$zeros,$in2,lo
 547         umull   $ACC3,$IN23_0,${R3}[2]
 548         umull   $ACC2,$IN23_0,${R2}[2]
 549          ldp    x8,x12,[$in2],#16       // inp[2:3] (or zero)
 550         umull   $ACC1,$IN23_0,${R1}[2]
 551          ldp    x9,x13,[$in2],#48
 552         umull   $ACC0,$IN23_0,${R0}[2]
 553 #ifdef  __ARMEB__
 554          rev    x8,x8
 555          rev    x12,x12
 556          rev    x9,x9
 557          rev    x13,x13
 558 #endif
 559
 560         umlal   $ACC4,$IN23_1,${R3}[2]
 561          and    x4,x8,#0x03ffffff       // base 2^64 -> base 2^26
 562         umlal   $ACC3,$IN23_1,${R2}[2]
 563          and    x5,x9,#0x03ffffff
 564         umlal   $ACC2,$IN23_1,${R1}[2]
 565          ubfx   x6,x8,#26,#26
 566         umlal   $ACC1,$IN23_1,${R0}[2]
 567          ubfx   x7,x9,#26,#26
 568         umlal   $ACC0,$IN23_1,${S4}[2]
 569          add    x4,x4,x5,lsl#32         // bfi  x4,x5,#32,#32
 570
 571         umlal   $ACC4,$IN23_2,${R2}[2]
 572          extr   x8,x12,x8,#52
 573         umlal   $ACC3,$IN23_2,${R1}[2]
 574          extr   x9,x13,x9,#52
 575         umlal   $ACC2,$IN23_2,${R0}[2]
 576          add    x6,x6,x7,lsl#32         // bfi  x6,x7,#32,#32
 577         umlal   $ACC1,$IN23_2,${S4}[2]
 578          fmov   $IN23_0,x4
 579         umlal   $ACC0,$IN23_2,${S3}[2]
 580          and    x8,x8,#0x03ffffff
 581
 582         umlal   $ACC4,$IN23_3,${R1}[2]
 583          and    x9,x9,#0x03ffffff
 584         umlal   $ACC3,$IN23_3,${R0}[2]
 585          ubfx   x10,x12,#14,#26
 586         umlal   $ACC2,$IN23_3,${S4}[2]
 587          ubfx   x11,x13,#14,#26
 588         umlal   $ACC1,$IN23_3,${S3}[2]
 589          add    x8,x8,x9,lsl#32         // bfi  x8,x9,#32,#32
 590         umlal   $ACC0,$IN23_3,${S2}[2]
 591          fmov   $IN23_1,x6
 592
 593         add     $IN01_2,$IN01_2,$H2
 594          add    x12,$padbit,x12,lsr#40
 595         umlal   $ACC4,$IN23_4,${R0}[2]
 596          add    x13,$padbit,x13,lsr#40
 597         umlal   $ACC3,$IN23_4,${S4}[2]
 598          add    x10,x10,x11,lsl#32      // bfi  x10,x11,#32,#32
 599         umlal   $ACC2,$IN23_4,${S3}[2]
 600          add    x12,x12,x13,lsl#32      // bfi  x12,x13,#32,#32
 601         umlal   $ACC1,$IN23_4,${S2}[2]
 602          fmov   $IN23_2,x8
 603         umlal   $ACC0,$IN23_4,${S1}[2]
 604          fmov   $IN23_3,x10
 605
 606         ////////////////////////////////////////////////////////////////
 607         // (hash+inp[0:1])*r^4 and accumulate
 608
 609         add     $IN01_0,$IN01_0,$H0
 610          fmov   $IN23_4,x12
 611         umlal   $ACC3,$IN01_2,${R1}[0]
 612          ldp    x8,x12,[$inp],#16       // inp[0:1]
 613         umlal   $ACC0,$IN01_2,${S3}[0]
 614          ldp    x9,x13,[$inp],#48
 615         umlal   $ACC4,$IN01_2,${R2}[0]
 616         umlal   $ACC1,$IN01_2,${S4}[0]
 617         umlal   $ACC2,$IN01_2,${R0}[0]
 618 #ifdef  __ARMEB__
 619          rev    x8,x8
 620          rev    x12,x12
 621          rev    x9,x9
 622          rev    x13,x13
 623 #endif
 624
 625         add     $IN01_1,$IN01_1,$H1
 626         umlal   $ACC3,$IN01_0,${R3}[0]
 627         umlal   $ACC4,$IN01_0,${R4}[0]
 628          and    x4,x8,#0x03ffffff       // base 2^64 -> base 2^26
 629         umlal   $ACC2,$IN01_0,${R2}[0]
 630          and    x5,x9,#0x03ffffff
 631         umlal   $ACC0,$IN01_0,${R0}[0]
 632          ubfx   x6,x8,#26,#26
 633         umlal   $ACC1,$IN01_0,${R1}[0]
 634          ubfx   x7,x9,#26,#26
 635
 636         add     $IN01_3,$IN01_3,$H3
 637          add    x4,x4,x5,lsl#32         // bfi  x4,x5,#32,#32
 638         umlal   $ACC3,$IN01_1,${R2}[0]
 639          extr   x8,x12,x8,#52
 640         umlal   $ACC4,$IN01_1,${R3}[0]
 641          extr   x9,x13,x9,#52
 642         umlal   $ACC0,$IN01_1,${S4}[0]
 643          add    x6,x6,x7,lsl#32         // bfi  x6,x7,#32,#32
 644         umlal   $ACC2,$IN01_1,${R1}[0]
 645          fmov   $IN01_0,x4
 646         umlal   $ACC1,$IN01_1,${R0}[0]
 647          and    x8,x8,#0x03ffffff
 648
 649         add     $IN01_4,$IN01_4,$H4
 650          and    x9,x9,#0x03ffffff
 651         umlal   $ACC3,$IN01_3,${R0}[0]
 652          ubfx   x10,x12,#14,#26
 653         umlal   $ACC0,$IN01_3,${S2}[0]
 654          ubfx   x11,x13,#14,#26
 655         umlal   $ACC4,$IN01_3,${R1}[0]
 656          add    x8,x8,x9,lsl#32         // bfi  x8,x9,#32,#32
 657         umlal   $ACC1,$IN01_3,${S3}[0]
 658          fmov   $IN01_1,x6
 659         umlal   $ACC2,$IN01_3,${S4}[0]
 660          add    x12,$padbit,x12,lsr#40
 661
 662         umlal   $ACC3,$IN01_4,${S4}[0]
 663          add    x13,$padbit,x13,lsr#40
 664         umlal   $ACC0,$IN01_4,${S1}[0]
 665          add    x10,x10,x11,lsl#32      // bfi  x10,x11,#32,#32
 666         umlal   $ACC4,$IN01_4,${R0}[0]
 667          add    x12,x12,x13,lsl#32      // bfi  x12,x13,#32,#32
 668         umlal   $ACC1,$IN01_4,${S2}[0]
 669          fmov   $IN01_2,x8
 670         umlal   $ACC2,$IN01_4,${S3}[0]
 671          fmov   $IN01_3,x10
 672          fmov   $IN01_4,x12
 673
 674         /////////////////////////////////////////////////////////////////
 675         // lazy reduction as discussed in "NEON crypto" by D.J. Bernstein
 676         // and P. Schwabe
 677         //
 678         // [see discussion in poly1305-armv4 module]
 679
 680         ushr    $T0.2d,$ACC3,#26
 681         xtn     $H3,$ACC3
 682          ushr   $T1.2d,$ACC0,#26
 683          and    $ACC0,$ACC0,$MASK.2d
 684         add     $ACC4,$ACC4,$T0.2d      // h3 -> h4
 685         bic     $H3,#0xfc,lsl#24        // &=0x03ffffff
 686          add    $ACC1,$ACC1,$T1.2d      // h0 -> h1
 687
 688         ushr    $T0.2d,$ACC4,#26
 689         xtn     $H4,$ACC4
 690          ushr   $T1.2d,$ACC1,#26
 691          xtn    $H1,$ACC1
 692         bic     $H4,#0xfc,lsl#24
 693          add    $ACC2,$ACC2,$T1.2d      // h1 -> h2
 694
 695         add     $ACC0,$ACC0,$T0.2d
 696         shl     $T0.2d,$T0.2d,#2
 697          shrn   $T1.2s,$ACC2,#26
 698          xtn    $H2,$ACC2
 699         add     $ACC0,$ACC0,$T0.2d      // h4 -> h0
 700          bic    $H1,#0xfc,lsl#24
 701          add    $H3,$H3,$T1.2s          // h2 -> h3
 702          bic    $H2,#0xfc,lsl#24
 703
 704         shrn    $T0.2s,$ACC0,#26
 705         xtn     $H0,$ACC0
 706          ushr   $T1.2s,$H3,#26
 707          bic    $H3,#0xfc,lsl#24
 708          bic    $H0,#0xfc,lsl#24
 709         add     $H1,$H1,$T0.2s          // h0 -> h1
 710          add    $H4,$H4,$T1.2s          // h3 -> h4
 711
 712         b.hi    .Loop_neon
 713
 714 .Lskip_loop:
 715         dup     $IN23_2,${IN23_2}[0]
 716         add     $IN01_2,$IN01_2,$H2
 717
 718         ////////////////////////////////////////////////////////////////
 719         // multiply (inp[0:1]+hash) or inp[2:3] by r^2:r^1
 720
 721         adds    $len,$len,#32
 722         b.ne    .Long_tail
 723
 724         dup     $IN23_2,${IN01_2}[0]
 725         add     $IN23_0,$IN01_0,$H0
 726         add     $IN23_3,$IN01_3,$H3
 727         add     $IN23_1,$IN01_1,$H1
 728         add     $IN23_4,$IN01_4,$H4
 729
 730 .Long_tail:
 731         dup     $IN23_0,${IN23_0}[0]
 732         umull2  $ACC0,$IN23_2,${S3}
 733         umull2  $ACC3,$IN23_2,${R1}
 734         umull2  $ACC4,$IN23_2,${R2}
 735         umull2  $ACC2,$IN23_2,${R0}
 736         umull2  $ACC1,$IN23_2,${S4}
 737
 738         dup     $IN23_1,${IN23_1}[0]
 739         umlal2  $ACC0,$IN23_0,${R0}
 740         umlal2  $ACC2,$IN23_0,${R2}
 741         umlal2  $ACC3,$IN23_0,${R3}
 742         umlal2  $ACC4,$IN23_0,${R4}
 743         umlal2  $ACC1,$IN23_0,${R1}
 744
 745         dup     $IN23_3,${IN23_3}[0]
 746         umlal2  $ACC0,$IN23_1,${S4}
 747         umlal2  $ACC3,$IN23_1,${R2}
 748         umlal2  $ACC2,$IN23_1,${R1}
 749         umlal2  $ACC4,$IN23_1,${R3}
 750         umlal2  $ACC1,$IN23_1,${R0}
 751
 752         dup     $IN23_4,${IN23_4}[0]
 753         umlal2  $ACC3,$IN23_3,${R0}
 754         umlal2  $ACC4,$IN23_3,${R1}
 755         umlal2  $ACC0,$IN23_3,${S2}
 756         umlal2  $ACC1,$IN23_3,${S3}
 757         umlal2  $ACC2,$IN23_3,${S4}
 758
 759         umlal2  $ACC3,$IN23_4,${S4}
 760         umlal2  $ACC0,$IN23_4,${S1}
 761         umlal2  $ACC4,$IN23_4,${R0}
 762         umlal2  $ACC1,$IN23_4,${S2}
 763         umlal2  $ACC2,$IN23_4,${S3}
 764
 765         b.eq    .Lshort_tail
 766
 767         ////////////////////////////////////////////////////////////////
 768         // (hash+inp[0:1])*r^4:r^3 and accumulate
 769
 770         add     $IN01_0,$IN01_0,$H0
 771         umlal   $ACC3,$IN01_2,${R1}
 772         umlal   $ACC0,$IN01_2,${S3}
 773         umlal   $ACC4,$IN01_2,${R2}
 774         umlal   $ACC1,$IN01_2,${S4}
 775         umlal   $ACC2,$IN01_2,${R0}
 776
 777         add     $IN01_1,$IN01_1,$H1
 778         umlal   $ACC3,$IN01_0,${R3}
 779         umlal   $ACC0,$IN01_0,${R0}
 780         umlal   $ACC4,$IN01_0,${R4}
 781         umlal   $ACC1,$IN01_0,${R1}
 782         umlal   $ACC2,$IN01_0,${R2}
 783
 784         add     $IN01_3,$IN01_3,$H3
 785         umlal   $ACC3,$IN01_1,${R2}
 786         umlal   $ACC0,$IN01_1,${S4}
 787         umlal   $ACC4,$IN01_1,${R3}
 788         umlal   $ACC1,$IN01_1,${R0}
 789         umlal   $ACC2,$IN01_1,${R1}
 790
 791         add     $IN01_4,$IN01_4,$H4
 792         umlal   $ACC3,$IN01_3,${R0}
 793         umlal   $ACC0,$IN01_3,${S2}
 794         umlal   $ACC4,$IN01_3,${R1}
 795         umlal   $ACC1,$IN01_3,${S3}
 796         umlal   $ACC2,$IN01_3,${S4}
 797
 798         umlal   $ACC3,$IN01_4,${S4}
 799         umlal   $ACC0,$IN01_4,${S1}
 800         umlal   $ACC4,$IN01_4,${R0}
 801         umlal   $ACC1,$IN01_4,${S2}
 802         umlal   $ACC2,$IN01_4,${S3}
 803
 804 .Lshort_tail:
 805         ////////////////////////////////////////////////////////////////
 806         // horizontal add
 807
 808         addp    $ACC3,$ACC3,$ACC3
 809          ldp    d8,d9,[sp,#16]          // meet ABI requirements
 810         addp    $ACC0,$ACC0,$ACC0
 811          ldp    d10,d11,[sp,#32]
 812         addp    $ACC4,$ACC4,$ACC4
 813          ldp    d12,d13,[sp,#48]
 814         addp    $ACC1,$ACC1,$ACC1
 815          ldp    d14,d15,[sp,#64]
 816         addp    $ACC2,$ACC2,$ACC2
 817
 818         ////////////////////////////////////////////////////////////////
 819         // lazy reduction, but without narrowing
 820
 821         ushr    $T0.2d,$ACC3,#26
 822         and     $ACC3,$ACC3,$MASK.2d
 823          ushr   $T1.2d,$ACC0,#26
 824          and    $ACC0,$ACC0,$MASK.2d
 825
 826         add     $ACC4,$ACC4,$T0.2d      // h3 -> h4
 827          add    $ACC1,$ACC1,$T1.2d      // h0 -> h1
 828
 829         ushr    $T0.2d,$ACC4,#26
 830         and     $ACC4,$ACC4,$MASK.2d
 831          ushr   $T1.2d,$ACC1,#26
 832          and    $ACC1,$ACC1,$MASK.2d
 833          add    $ACC2,$ACC2,$T1.2d      // h1 -> h2
 834
 835         add     $ACC0,$ACC0,$T0.2d
 836         shl     $T0.2d,$T0.2d,#2
 837          ushr   $T1.2d,$ACC2,#26
 838          and    $ACC2,$ACC2,$MASK.2d
 839         add     $ACC0,$ACC0,$T0.2d      // h4 -> h0
 840          add    $ACC3,$ACC3,$T1.2d      // h2 -> h3
 841
 842         ushr    $T0.2d,$ACC0,#26
 843         and     $ACC0,$ACC0,$MASK.2d
 844          ushr   $T1.2d,$ACC3,#26
 845          and    $ACC3,$ACC3,$MASK.2d
 846         add     $ACC1,$ACC1,$T0.2d      // h0 -> h1
 847          add    $ACC4,$ACC4,$T1.2d      // h3 -> h4
 848
 849         ////////////////////////////////////////////////////////////////
 850         // write the result, can be partially reduced
 851
 852         st4     {$ACC0,$ACC1,$ACC2,$ACC3}[0],[$ctx],#16
 853         st1     {$ACC4}[0],[$ctx]
 854
 855 .Lno_data_neon:
 856         ldr     x29,[sp],#80
 857         ret
 858 .size   poly1305_blocks_neon,.-poly1305_blocks_neon
 859
 860 .type   poly1305_emit_neon,%function
 861 .align  5
 862 poly1305_emit_neon:
 863         ldr     $is_base2_26,[$ctx,#24]
 864         cbz     $is_base2_26,poly1305_emit
 865
 866         ldp     w10,w11,[$ctx]          // load hash value base 2^26
 867         ldp     w12,w13,[$ctx,#8]
 868         ldr     w14,[$ctx,#16]
 869
 870         add     $h0,x10,x11,lsl#26      // base 2^26 -> base 2^64
 871         lsr     $h1,x12,#12
 872         adds    $h0,$h0,x12,lsl#52
 873         add     $h1,$h1,x13,lsl#14
 874         adc     $h1,$h1,xzr
 875         lsr     $h2,x14,#24
 876         adds    $h1,$h1,x14,lsl#40
 877         adc     $h2,$h2,xzr             // can be partially reduced...
 878
 879         ldp     $t0,$t1,[$nonce]        // load nonce
 880
 881         and     $d0,$h2,#-4             // ... so reduce
 882         add     $d0,$d0,$h2,lsr#2
 883         and     $h2,$h2,#3
 884         adds    $h0,$h0,$d0
 885         adcs    $h1,$h1,xzr
 886         adc     $h2,$h2,xzr
 887
 888         adds    $d0,$h0,#5              // compare to modulus
 889         adcs    $d1,$h1,xzr
 890         adc     $d2,$h2,xzr
 891
 892         tst     $d2,#-4                 // see if it's carried/borrowed
 893
 894         csel    $h0,$h0,$d0,eq
 895         csel    $h1,$h1,$d1,eq
 896
 897 #ifdef  __ARMEB__
 898         ror     $t0,$t0,#32             // flip nonce words
 899         ror     $t1,$t1,#32
 900 #endif
 901         adds    $h0,$h0,$t0             // accumulate nonce
 902         adc     $h1,$h1,$t1
 903 #ifdef  __ARMEB__
 904         rev     $h0,$h0                 // flip output bytes
 905         rev     $h1,$h1
 906 #endif
 907         stp     $h0,$h1,[$mac]          // write result
 908
 909         ret
 910 .size   poly1305_emit_neon,.-poly1305_emit_neon
 911
 912 .align  5
 913 .Lzeros:
 914 .long   0,0,0,0,0,0,0,0
 915 .LOPENSSL_armcap_P:
 916 #ifdef  __ILP32__
 917 .long   OPENSSL_armcap_P-.
 918 #else
 919 .quad   OPENSSL_armcap_P-.
 920 #endif
 921 .asciz  "Poly1305 for ARMv8, CRYPTOGAMS by <appro\@openssl.org>"
 922 .align  2
 923 ___
 924
 925 foreach (split("\n",$code)) {
 926         s/\b(shrn\s+v[0-9]+)\.[24]d/$1.2s/                      or
 927         s/\b(fmov\s+)v([0-9]+)[^,]*,\s*x([0-9]+)/$1d$2,x$3/     or
 928         (m/\bdup\b/ and (s/\.[24]s/.2d/g or 1))                 or
 929         (m/\b(eor|and)/ and (s/\.[248][sdh]/.16b/g or 1))       or
 930         (m/\bum(ul|la)l\b/ and (s/\.4s/.2s/g or 1))             or
 931         (m/\bum(ul|la)l2\b/ and (s/\.2s/.4s/g or 1))            or
 932         (m/\bst[1-4]\s+{[^}]+}\[/ and (s/\.[24]d/.s/g or 1));
 933
 934         s/\.[124]([sd])\[/.$1\[/;
 935
 936         print $_,"\n";
 937 }
 938 close STDOUT;