v3.9.10

2026-07-14 10:56:50 +00:00 · 2019-11-22 20:29:18 -05:00
parent 86b889e1b0
commit a52c5eccf7
29 changed files with 2015 additions and 1672 deletions
--- a/algo/blake/blake512-hash-4way.c
+++ b/algo/blake/blake512-hash-4way.c
@@ -403,7 +403,9 @@ static const sph_u64 CB[16] = {
 	__m256i M[16]; \
 	__m256i V0, V1, V2, V3, V4, V5, V6, V7; \
 	__m256i V8, V9, VA, VB, VC, VD, VE, VF; \
-	unsigned r; \
+   const __m256i shuff_bswap64 = m256_const2_64( 0x08090a0b0c0d0e0f, \
+                                                 0x0001020304050607 ) \
+   unsigned r; \
 	V0 = H0; \
 	V1 = H1; \
 	V2 = H2; \
@@ -412,53 +414,53 @@ static const sph_u64 CB[16] = {
 	V5 = H5; \
 	V6 = H6; \
 	V7 = H7; \
-   V8 = _mm256_xor_si256( S0, _mm256_set_epi64x( CB0, CB0, CB0, CB0 ) ); \
-   V9 = _mm256_xor_si256( S1, _mm256_set_epi64x( CB1, CB1, CB1, CB1 ) ); \
-   VA = _mm256_xor_si256( S2, _mm256_set_epi64x( CB2, CB2, CB2, CB2 ) ); \
-   VB = _mm256_xor_si256( S3, _mm256_set_epi64x( CB3, CB3, CB3, CB3 ) ); \
-   VC = _mm256_xor_si256( _mm256_set_epi64x( T0, T0, T0, T0 ), \
-                          _mm256_set_epi64x( CB4, CB4, CB4, CB4 ) ); \
-   VD = _mm256_xor_si256( _mm256_set_epi64x( T0, T0, T0, T0 ), \
-                          _mm256_set_epi64x( CB5, CB5, CB5, CB5 ) ); \
-   VE = _mm256_xor_si256( _mm256_set_epi64x( T1, T1, T1, T1 ), \
-                          _mm256_set_epi64x( CB6, CB6, CB6, CB6 ) ); \
-   VF = _mm256_xor_si256( _mm256_set_epi64x( T1, T1, T1, T1 ), \
-                          _mm256_set_epi64x( CB7, CB7, CB7, CB7 ) ); \
-	M[0x0] = mm256_bswap_64( *(buf+0) ); \
-	M[0x1] = mm256_bswap_64( *(buf+1) ); \
-	M[0x2] = mm256_bswap_64( *(buf+2) ); \
-	M[0x3] = mm256_bswap_64( *(buf+3) ); \
-	M[0x4] = mm256_bswap_64( *(buf+4) ); \
-	M[0x5] = mm256_bswap_64( *(buf+5) ); \
-	M[0x6] = mm256_bswap_64( *(buf+6) ); \
-	M[0x7] = mm256_bswap_64( *(buf+7) ); \
-	M[0x8] = mm256_bswap_64( *(buf+8) ); \
-	M[0x9] = mm256_bswap_64( *(buf+9) ); \
-	M[0xA] = mm256_bswap_64( *(buf+10) ); \
-	M[0xB] = mm256_bswap_64( *(buf+11) ); \
-	M[0xC] = mm256_bswap_64( *(buf+12) ); \
-	M[0xD] = mm256_bswap_64( *(buf+13) ); \
-	M[0xE] = mm256_bswap_64( *(buf+14) ); \
-	M[0xF] = mm256_bswap_64( *(buf+15) ); \
+   V8 = _mm256_xor_si256( S0, _mm256_set1_epi64x( CB0 ) ); \
+   V9 = _mm256_xor_si256( S1, _mm256_set1_epi64x( CB1 ) ); \
+   VA = _mm256_xor_si256( S2, _mm256_set1_epi64x( CB2 ) ); \
+   VB = _mm256_xor_si256( S3, _mm256_set1_epi64x( CB3 ) ); \
+   VC = _mm256_xor_si256( _mm256_set1_epi64x( T0 ), \
+                          _mm256_set1_epi64x( CB4 ) ); \
+   VD = _mm256_xor_si256( _mm256_set1_epi64x( T0 ), \
+                          _mm256_set1_epi64x( CB5 ) ); \
+   VE = _mm256_xor_si256( _mm256_set1_epi64x( T1 ), \
+                          _mm256_set1_epi64x( CB6 ) ); \
+   VF = _mm256_xor_si256( _mm256_set1_epi64x( T1 ), \
+                          _mm256_set1_epi64x( CB7, CB7, CB7, CB7 ) ); \
+   M[0x0] = _mm256_shuffle_epi8( *(buf+ 0), shuff_bswap64 ); \
+	M[0x1] = _mm256_shuffle_epi8( *(buf+ 1), shuff_bswap64 ); \
+	M[0x2] = _mm256_shuffle_epi8( *(buf+ 2), shuff_bswap64 ); \
+	M[0x3] = _mm256_shuffle_epi8( *(buf+ 3), shuff_bswap64 ); \
+	M[0x4] = _mm256_shuffle_epi8( *(buf+ 4), shuff_bswap64 ); \
+	M[0x5] = _mm256_shuffle_epi8( *(buf+ 5), shuff_bswap64 ); \
+	M[0x6] = _mm256_shuffle_epi8( *(buf+ 6), shuff_bswap64 ); \
+	M[0x7] = _mm256_shuffle_epi8( *(buf+ 7), shuff_bswap64 ); \
+	M[0x8] = _mm256_shuffle_epi8( *(buf+ 8), shuff_bswap64 ); \
+	M[0x9] = _mm256_shuffle_epi8( *(buf+ 9), shuff_bswap64 ); \
+	M[0xA] = _mm256_shuffle_epi8( *(buf+10), shuff_bswap64 ); \
+	M[0xB] = _mm256_shuffle_epi8( *(buf+11), shuff_bswap64 ); \
+	M[0xC] = _mm256_shuffle_epi8( *(buf+12), shuff_bswap64 ); \
+	M[0xD] = _mm256_shuffle_epi8( *(buf+13), shuff_bswap64 ); \
+	M[0xE] = _mm256_shuffle_epi8( *(buf+14), shuff_bswap64 ); \
+	M[0xF] = _mm256_shuffle_epi8( *(buf+15), shuff_bswap64 ); \
 	for (r = 0; r < 16; r ++) \
 		ROUND_B_4WAY(r); \
-        H0 = _mm256_xor_si256( _mm256_xor_si256( \
+   H0 = _mm256_xor_si256( _mm256_xor_si256( \
                    _mm256_xor_si256( S0, V0 ), V8 ), H0 ); \
-        H1 = _mm256_xor_si256( _mm256_xor_si256( \
+   H1 = _mm256_xor_si256( _mm256_xor_si256( \
                    _mm256_xor_si256( S1, V1 ), V9 ), H1 ); \
-        H2 = _mm256_xor_si256( _mm256_xor_si256( \
+   H2 = _mm256_xor_si256( _mm256_xor_si256( \
                    _mm256_xor_si256( S2, V2 ), VA ), H2 ); \
-        H3 = _mm256_xor_si256( _mm256_xor_si256( \
+   H3 = _mm256_xor_si256( _mm256_xor_si256( \
                    _mm256_xor_si256( S3, V3 ), VB ), H3 ); \
-        H4 = _mm256_xor_si256( _mm256_xor_si256( \
+   H4 = _mm256_xor_si256( _mm256_xor_si256( \
                    _mm256_xor_si256( S0, V4 ), VC ), H4 ); \
-        H5 = _mm256_xor_si256( _mm256_xor_si256( \
+   H5 = _mm256_xor_si256( _mm256_xor_si256( \
                    _mm256_xor_si256( S1, V5 ), VD ), H5 ); \
-        H6 = _mm256_xor_si256( _mm256_xor_si256( \
+   H6 = _mm256_xor_si256( _mm256_xor_si256( \
                    _mm256_xor_si256( S2, V6 ), VE ), H6 ); \
-        H7 = _mm256_xor_si256( _mm256_xor_si256( \
+   H7 = _mm256_xor_si256( _mm256_xor_si256( \
                    _mm256_xor_si256( S3, V7 ), VF ), H7 ); \
-	} while (0)
+} while (0)

 #else

@@ -491,8 +493,7 @@ static const sph_u64 CB[16] = {
                         m256_const1_64( CB6 ) );  \
  VF = _mm256_xor_si256( _mm256_set1_epi64x( T1 ), \
                         m256_const1_64( CB7 ) );  \
-  shuf_bswap64 = m256_const_64( 0x08090a0b0c0d0e0f, 0x0001020304050607, \
-                                0x08090a0b0c0d0e0f, 0x0001020304050607 ); \
+  shuf_bswap64 = m256_const2_64( 0x08090a0b0c0d0e0f, 0x0001020304050607 ); \
  M0 = _mm256_shuffle_epi8( *(buf+ 0), shuf_bswap64 ); \
  M1 = _mm256_shuffle_epi8( *(buf+ 1), shuf_bswap64 ); \
  M2 = _mm256_shuffle_epi8( *(buf+ 2), shuf_bswap64 ); \
@@ -620,7 +621,7 @@ blake64_4way_close( blake_4way_big_context *sc,
   bit_len = ((unsigned)ptr << 3);
   z = 0x80 >> n;
   zz = ((ub & -z) | z) & 0xFF;
-   buf[ptr>>3] = _mm256_set_epi64x( zz, zz, zz, zz );
+   buf[ptr>>3] = _mm256_set1_epi64x( zz );
   tl = sc->T0 + bit_len;
   th = sc->T1;
   if (ptr == 0 )