Optimize AES-GCM for uarchs with unroll and new instructions
[openssl.git] / crypto / armcap.c
1 /*
2  * Copyright 2011-2021 The OpenSSL Project Authors. All Rights Reserved.
3  *
4  * Licensed under the Apache License 2.0 (the "License").  You may not use
5  * this file except in compliance with the License.  You can obtain a copy
6  * in the file LICENSE in the source distribution or at
7  * https://www.openssl.org/source/license.html
8  */
9
10 #include <stdio.h>
11 #include <stdlib.h>
12 #include <string.h>
13 #include <setjmp.h>
14 #include <signal.h>
15 #include <openssl/crypto.h>
16 #ifdef __APPLE__
17 #include <sys/sysctl.h>
18 #endif
19 #include "internal/cryptlib.h"
20 #include <unistd.h>
21
22 #include "arm_arch.h"
23
24 unsigned int OPENSSL_armcap_P = 0;
25 unsigned int OPENSSL_arm_midr = 0;
26 unsigned int OPENSSL_armv8_rsa_neonized = 0;
27
28 #if __ARM_MAX_ARCH__<7
29 void OPENSSL_cpuid_setup(void)
30 {
31 }
32
33 uint32_t OPENSSL_rdtsc(void)
34 {
35     return 0;
36 }
37 #else
38 static sigset_t all_masked;
39
40 static sigjmp_buf ill_jmp;
41 static void ill_handler(int sig)
42 {
43     siglongjmp(ill_jmp, sig);
44 }
45
46 /*
47  * Following subroutines could have been inlined, but it's not all
48  * ARM compilers support inline assembler...
49  */
50 void _armv7_neon_probe(void);
51 void _armv8_aes_probe(void);
52 void _armv8_sha1_probe(void);
53 void _armv8_sha256_probe(void);
54 void _armv8_pmull_probe(void);
55 # ifdef __aarch64__
56 void _armv8_sm3_probe(void);
57 void _armv8_sm4_probe(void);
58 void _armv8_sha512_probe(void);
59 unsigned int _armv8_cpuid_probe(void);
60 void _armv8_rng_probe(void);
61
62 size_t OPENSSL_rndr_asm(unsigned char *buf, size_t len);
63 size_t OPENSSL_rndrrs_asm(unsigned char *buf, size_t len);
64
65 size_t OPENSSL_rndr_bytes(unsigned char *buf, size_t len);
66 size_t OPENSSL_rndrrs_bytes(unsigned char *buf, size_t len);
67
68 static size_t OPENSSL_rndr_wrapper(size_t (*func)(unsigned char *, size_t), unsigned char *buf, size_t len)
69 {
70     size_t buffer_size = 0;
71     int i;
72
73     for (i = 0; i < 8; i++) {
74         buffer_size = func(buf, len);
75         if (buffer_size == len)
76             break;
77         usleep(5000);  /* 5000 microseconds (5 milliseconds) */
78     }
79     return buffer_size;
80 }
81
82 size_t OPENSSL_rndr_bytes(unsigned char *buf, size_t len)
83 {
84     return OPENSSL_rndr_wrapper(OPENSSL_rndr_asm, buf, len);
85 }
86
87 size_t OPENSSL_rndrrs_bytes(unsigned char *buf, size_t len)
88 {
89     return OPENSSL_rndr_wrapper(OPENSSL_rndrrs_asm, buf, len);
90 }
91 # endif
92 uint32_t _armv7_tick(void);
93
94 uint32_t OPENSSL_rdtsc(void)
95 {
96     if (OPENSSL_armcap_P & ARMV7_TICK)
97         return _armv7_tick();
98     else
99         return 0;
100 }
101
102 # if defined(__GNUC__) && __GNUC__>=2
103 void OPENSSL_cpuid_setup(void) __attribute__ ((constructor));
104 # endif
105
106 # if defined(__GLIBC__) && defined(__GLIBC_PREREQ)
107 #  if __GLIBC_PREREQ(2, 16)
108 #   include <sys/auxv.h>
109 #   define OSSL_IMPLEMENT_GETAUXVAL
110 #  endif
111 # elif defined(__ANDROID_API__)
112 /* see https://developer.android.google.cn/ndk/guides/cpu-features */
113 #  if __ANDROID_API__ >= 18
114 #   include <sys/auxv.h>
115 #   define OSSL_IMPLEMENT_GETAUXVAL
116 #  endif
117 # endif
118 # if defined(__FreeBSD__)
119 #  include <sys/param.h>
120 #  if __FreeBSD_version >= 1200000
121 #   include <sys/auxv.h>
122 #   define OSSL_IMPLEMENT_GETAUXVAL
123
124 static unsigned long getauxval(unsigned long key)
125 {
126   unsigned long val = 0ul;
127
128   if (elf_aux_info((int)key, &val, sizeof(val)) != 0)
129     return 0ul;
130
131   return val;
132 }
133 #  endif
134 # endif
135
136 /*
137  * Android: according to https://developer.android.com/ndk/guides/cpu-features,
138  * getauxval is supported starting with API level 18
139  */
140 #  if defined(__ANDROID__) && defined(__ANDROID_API__) && __ANDROID_API__ >= 18
141 #   include <sys/auxv.h>
142 #   define OSSL_IMPLEMENT_GETAUXVAL
143 #  endif
144
145 /*
146  * ARM puts the feature bits for Crypto Extensions in AT_HWCAP2, whereas
147  * AArch64 used AT_HWCAP.
148  */
149 # ifndef AT_HWCAP
150 #  define AT_HWCAP               16
151 # endif
152 # ifndef AT_HWCAP2
153 #  define AT_HWCAP2              26
154 # endif
155 # if defined(__arm__) || defined (__arm)
156 #  define HWCAP                  AT_HWCAP
157 #  define HWCAP_NEON             (1 << 12)
158
159 #  define HWCAP_CE               AT_HWCAP2
160 #  define HWCAP_CE_AES           (1 << 0)
161 #  define HWCAP_CE_PMULL         (1 << 1)
162 #  define HWCAP_CE_SHA1          (1 << 2)
163 #  define HWCAP_CE_SHA256        (1 << 3)
164 # elif defined(__aarch64__)
165 #  define HWCAP                  AT_HWCAP
166 #  define HWCAP_NEON             (1 << 1)
167
168 #  define HWCAP_CE               HWCAP
169 #  define HWCAP_CE_AES           (1 << 3)
170 #  define HWCAP_CE_PMULL         (1 << 4)
171 #  define HWCAP_CE_SHA1          (1 << 5)
172 #  define HWCAP_CE_SHA256        (1 << 6)
173 #  define HWCAP_CPUID            (1 << 11)
174 #  define HWCAP_SHA3             (1 << 17)
175 #  define HWCAP_CE_SM3           (1 << 18)
176 #  define HWCAP_CE_SM4           (1 << 19)
177 #  define HWCAP_CE_SHA512        (1 << 21)
178                                   /* AT_HWCAP2 */
179 #  define HWCAP2                 26
180 #  define HWCAP2_RNG             (1 << 16)
181 # endif
182
183 void OPENSSL_cpuid_setup(void)
184 {
185     const char *e;
186     struct sigaction ill_oact, ill_act;
187     sigset_t oset;
188     static int trigger = 0;
189
190     if (trigger)
191         return;
192     trigger = 1;
193
194     OPENSSL_armcap_P = 0;
195
196     if ((e = getenv("OPENSSL_armcap"))) {
197         OPENSSL_armcap_P = (unsigned int)strtoul(e, NULL, 0);
198         return;
199     }
200
201 # if defined(__APPLE__)
202 #   if !defined(__aarch64__)
203     /*
204      * Capability probing by catching SIGILL appears to be problematic
205      * on iOS. But since Apple universe is "monocultural", it's actually
206      * possible to simply set pre-defined processor capability mask.
207      */
208     if (1) {
209         OPENSSL_armcap_P = ARMV7_NEON;
210         return;
211     }
212     /*
213      * One could do same even for __aarch64__ iOS builds. It's not done
214      * exclusively for reasons of keeping code unified across platforms.
215      * Unified code works because it never triggers SIGILL on Apple
216      * devices...
217      */
218 #   else
219     {
220         unsigned int feature;
221         size_t len = sizeof(feature);
222         char uarch[64];
223
224         if (sysctlbyname("hw.optional.armv8_2_sha512", &feature, &len, NULL, 0) == 0 && feature == 1)
225             OPENSSL_armcap_P |= ARMV8_SHA512;
226         feature = 0;
227         if (sysctlbyname("hw.optional.armv8_2_sha3", &feature, &len, NULL, 0) == 0 && feature == 1) {
228             OPENSSL_armcap_P |= ARMV8_SHA3;
229             len = sizeof(uarch);
230             if ((sysctlbyname("machdep.cpu.brand_string", uarch, &len, NULL, 0) == 0) &&
231                 (strncmp(uarch, "Apple M1", 8) == 0))
232                 OPENSSL_armcap_P |= ARMV8_UNROLL8_EOR3;
233         }
234     }
235 #   endif
236 # endif
237
238 # ifdef OSSL_IMPLEMENT_GETAUXVAL
239     if (getauxval(HWCAP) & HWCAP_NEON) {
240         unsigned long hwcap = getauxval(HWCAP_CE);
241
242         OPENSSL_armcap_P |= ARMV7_NEON;
243
244         if (hwcap & HWCAP_CE_AES)
245             OPENSSL_armcap_P |= ARMV8_AES;
246
247         if (hwcap & HWCAP_CE_PMULL)
248             OPENSSL_armcap_P |= ARMV8_PMULL;
249
250         if (hwcap & HWCAP_CE_SHA1)
251             OPENSSL_armcap_P |= ARMV8_SHA1;
252
253         if (hwcap & HWCAP_CE_SHA256)
254             OPENSSL_armcap_P |= ARMV8_SHA256;
255
256 #  ifdef __aarch64__
257         if (hwcap & HWCAP_CE_SM4)
258             OPENSSL_armcap_P |= ARMV8_SM4;
259
260         if (hwcap & HWCAP_CE_SHA512)
261             OPENSSL_armcap_P |= ARMV8_SHA512;
262
263         if (hwcap & HWCAP_CPUID)
264             OPENSSL_armcap_P |= ARMV8_CPUID;
265
266         if (hwcap & HWCAP_CE_SM3)
267             OPENSSL_armcap_P |= ARMV8_SM3;
268         if (hwcap & HWCAP_SHA3)
269             OPENSSL_armcap_P |= ARMV8_SHA3;
270 #  endif
271     }
272 #  ifdef __aarch64__
273         if (getauxval(HWCAP2) & HWCAP2_RNG)
274             OPENSSL_armcap_P |= ARMV8_RNG;
275 #  endif
276 # endif
277
278     sigfillset(&all_masked);
279     sigdelset(&all_masked, SIGILL);
280     sigdelset(&all_masked, SIGTRAP);
281     sigdelset(&all_masked, SIGFPE);
282     sigdelset(&all_masked, SIGBUS);
283     sigdelset(&all_masked, SIGSEGV);
284
285     memset(&ill_act, 0, sizeof(ill_act));
286     ill_act.sa_handler = ill_handler;
287     ill_act.sa_mask = all_masked;
288
289     sigprocmask(SIG_SETMASK, &ill_act.sa_mask, &oset);
290     sigaction(SIGILL, &ill_act, &ill_oact);
291
292     /* If we used getauxval, we already have all the values */
293 # ifndef OSSL_IMPLEMENT_GETAUXVAL
294     if (sigsetjmp(ill_jmp, 1) == 0) {
295         _armv7_neon_probe();
296         OPENSSL_armcap_P |= ARMV7_NEON;
297         if (sigsetjmp(ill_jmp, 1) == 0) {
298             _armv8_pmull_probe();
299             OPENSSL_armcap_P |= ARMV8_PMULL | ARMV8_AES;
300         } else if (sigsetjmp(ill_jmp, 1) == 0) {
301             _armv8_aes_probe();
302             OPENSSL_armcap_P |= ARMV8_AES;
303         }
304         if (sigsetjmp(ill_jmp, 1) == 0) {
305             _armv8_sha1_probe();
306             OPENSSL_armcap_P |= ARMV8_SHA1;
307         }
308         if (sigsetjmp(ill_jmp, 1) == 0) {
309             _armv8_sha256_probe();
310             OPENSSL_armcap_P |= ARMV8_SHA256;
311         }
312 #  if defined(__aarch64__) && !defined(__APPLE__)
313         if (sigsetjmp(ill_jmp, 1) == 0) {
314             _armv8_sm4_probe();
315             OPENSSL_armcap_P |= ARMV8_SM4;
316         }
317
318         if (sigsetjmp(ill_jmp, 1) == 0) {
319             _armv8_sha512_probe();
320             OPENSSL_armcap_P |= ARMV8_SHA512;
321         }
322
323         if (sigsetjmp(ill_jmp, 1) == 0) {
324             _armv8_sm3_probe();
325             OPENSSL_armcap_P |= ARMV8_SM3;
326         if (sigsetjmp(ill_jmp, 1) == 0) {
327             _armv8_eor3_probe();
328             OPENSSL_armcap_P |= ARMV8_SHA3;
329         }
330 #  endif
331     }
332 #  ifdef __aarch64__
333     if (sigsetjmp(ill_jmp, 1) == 0) {
334         _armv8_rng_probe();
335         OPENSSL_armcap_P |= ARMV8_RNG;
336     }
337 #  endif
338 # endif
339
340     /* Things that getauxval didn't tell us */
341     if (sigsetjmp(ill_jmp, 1) == 0) {
342         _armv7_tick();
343         OPENSSL_armcap_P |= ARMV7_TICK;
344     }
345
346     sigaction(SIGILL, &ill_oact, NULL);
347     sigprocmask(SIG_SETMASK, &oset, NULL);
348
349 # ifdef __aarch64__
350     if (OPENSSL_armcap_P & ARMV8_CPUID)
351         OPENSSL_arm_midr = _armv8_cpuid_probe();
352
353     if ((MIDR_IS_CPU_MODEL(OPENSSL_arm_midr, ARM_CPU_IMP_ARM, ARM_CPU_PART_CORTEX_A72) ||
354          MIDR_IS_CPU_MODEL(OPENSSL_arm_midr, ARM_CPU_IMP_ARM, ARM_CPU_PART_N1)) &&
355         (OPENSSL_armcap_P & ARMV7_NEON)) {
356             OPENSSL_armv8_rsa_neonized = 1;
357     }
358     if ((MIDR_IS_CPU_MODEL(OPENSSL_arm_midr, ARM_CPU_IMP_ARM, ARM_CPU_PART_V1)) &&
359         (OPENSSL_armcap_P & ARMV8_SHA3))
360         OPENSSL_armcap_P |= ARMV8_UNROLL8_EOR3;
361 # endif
362 }
363 #endif