vg_m.h

   1 /* Copyright (C) 2021-2023 Harry Godden (hgn) - All Rights Reserved
   2  *
   3  *  0. Misc
   4  *  1. Scalar operations
   5  *  2. Vectors
   6  *    2.a 2D Vectors
   7  *    2.b 3D Vectors
   8  *    2.c 4D Vectors
   9  *  3. Quaternions
  10  *  4. Matrices
  11  *    4.a 2x2 matrices
  12  *    4.b 3x3 matrices
  13  *    4.c 4x3 matrices
  14  *    4.d 4x4 matrices
  15  *  5. Geometry
  16  *    5.a Boxes
  17  *    5.b Planes
  18  *    5.c Closest points
  19  *    5.d Raycast & Spherecasts
  20  *    5.e Curves
  21  *    5.f Volumes
  22  *  6. Statistics
  23  *    6.a Random numbers
  24  **/
  25
  26 #ifndef VG_M_H
  27 #define VG_M_H
  28
  29 #include "vg_platform.h"
  30 #include <math.h>
  31 #include <stdlib.h>
  32
  33 #define VG_PIf  3.14159265358979323846264338327950288f
  34 #define VG_TAUf 6.28318530717958647692528676655900576f
  35
  36 /*
  37  * -----------------------------------------------------------------------------
  38  * Section 0.                    Misc Operations
  39  * -----------------------------------------------------------------------------
  40  */
  41
  42 /* get the f32 as the raw bits in a u32 without converting */
  43 static u32 vg_ftu32( f32 a )
  44 {
  45    u32 *ptr = (u32 *)(&a);
  46    return *ptr;
  47 }
  48
  49 /* check if f32 is infinite */
  50 static int vg_isinff( f32 a )
  51 {
  52    return ((vg_ftu32(a)) & 0x7FFFFFFFU) == 0x7F800000U;
  53 }
  54
  55 /* check if f32 is not a number */
  56 static int vg_isnanf( f32 a )
  57 {
  58    return !vg_isinff(a) && ((vg_ftu32(a)) & 0x7F800000U) == 0x7F800000U;
  59 }
  60
  61 /* check if f32 is a number and is not infinite */
  62 static int vg_validf( f32 a )
  63 {
  64    return ((vg_ftu32(a)) & 0x7F800000U) != 0x7F800000U;
  65 }
  66
  67 static int v3_valid( v3f a ){
  68    for( u32 i=0; i<3; i++ )
  69       if( !vg_validf(a[i]) ) return 0;
  70    return 1;
  71 }
  72
  73 /*
  74  * -----------------------------------------------------------------------------
  75  * Section 1.                   Scalar Operations
  76  * -----------------------------------------------------------------------------
  77  */
  78
  79 static inline f32 vg_minf( f32 a, f32 b ){ return a < b? a: b; }
  80 static inline f32 vg_maxf( f32 a, f32 b ){ return a > b? a: b; }
  81
  82 static inline int vg_min( int a, int b ){ return a < b? a: b; }
  83 static inline int vg_max( int a, int b ){ return a > b? a: b; }
  84
  85 static inline f32 vg_clampf( f32 a, f32 min, f32 max )
  86 {
  87    return vg_minf( max, vg_maxf( a, min ) );
  88 }
  89
  90 static inline f32 vg_signf( f32 a )
  91 {
  92    return a < 0.0f? -1.0f: 1.0f;
  93 }
  94
  95 static inline f32 vg_fractf( f32 a )
  96 {
  97    return a - floorf( a );
  98 }
  99
 100 static f32 vg_cfrictf( f32 velocity, f32 F )
 101 {
 102    return -vg_signf(velocity) * vg_minf( F, fabsf(velocity) );
 103 }
 104
 105 static inline f32 vg_rad( f32 deg )
 106 {
 107    return deg * VG_PIf / 180.0f;
 108 }
 109
 110 /* angle to reach b from a */
 111 static f32 vg_angle_diff( f32 a, f32 b ){
 112    f32 d = fmod(b,VG_TAUf)-fmodf(a,VG_TAUf);
 113    if( fabsf(d) > VG_PIf )
 114       d = -vg_signf(d) * (VG_TAUf - fabsf(d));
 115
 116    return d;
 117 }
 118
 119 /*
 120  * quantize float to bit count
 121  */
 122 static u32 vg_quantf( f32 a, u32 bits, f32 min, f32 max ){
 123    u32 mask = (0x1 << bits) - 1;
 124    return vg_clampf((a - min) * ((f32)mask/(max-min)), 0.0f, mask );
 125 }
 126
 127 /*
 128  * un-quantize discreet to float
 129  */
 130 static f32 vg_dequantf( u32 q, u32 bits, f32 min, f32 max ){
 131    u32 mask = (0x1 << bits) - 1;
 132    return min + (f32)q * ((max-min) / (f32)mask);
 133 }
 134
 135 /*
 136  * -----------------------------------------------------------------------------
 137  * Section 2.a                   2D Vectors
 138  * -----------------------------------------------------------------------------
 139  */
 140
 141 static inline void v2_copy( v2f a, v2f d )
 142 {
 143    d[0] = a[0]; d[1] = a[1];
 144 }
 145
 146 static inline void v2_zero( v2f a )
 147 {
 148    a[0] = 0.f; a[1] = 0.f;
 149 }
 150
 151 static inline void v2_add( v2f a, v2f b, v2f d )
 152 {
 153    d[0] = a[0]+b[0]; d[1] = a[1]+b[1];
 154 }
 155
 156 static inline void v2_sub( v2f a, v2f b, v2f d )
 157 {
 158    d[0] = a[0]-b[0]; d[1] = a[1]-b[1];
 159 }
 160
 161 static inline void v2_minv( v2f a, v2f b, v2f dest )
 162 {
 163    dest[0] = vg_minf(a[0], b[0]);
 164    dest[1] = vg_minf(a[1], b[1]);
 165 }
 166
 167 static inline void v2_maxv( v2f a, v2f b, v2f dest )
 168 {
 169    dest[0] = vg_maxf(a[0], b[0]);
 170    dest[1] = vg_maxf(a[1], b[1]);
 171 }
 172
 173 static inline f32 v2_dot( v2f a, v2f b )
 174 {
 175    return a[0] * b[0] + a[1] * b[1];
 176 }
 177
 178 static inline f32 v2_cross( v2f a, v2f b )
 179 {
 180    return a[0]*b[1] - a[1]*b[0];
 181 }
 182
 183 static inline void v2_abs( v2f a, v2f d )
 184 {
 185    d[0] = fabsf( a[0] );
 186    d[1] = fabsf( a[1] );
 187 }
 188
 189 static inline void v2_muls( v2f a, f32 s, v2f d )
 190 {
 191    d[0] = a[0]*s; d[1] = a[1]*s;
 192 }
 193
 194 static inline void v2_divs( v2f a, f32 s, v2f d )
 195 {
 196    d[0] = a[0]/s; d[1] = a[1]/s;
 197 }
 198
 199 static inline void v2_mul( v2f a, v2f b, v2f d )
 200 {
 201    d[0] = a[0]*b[0];
 202    d[1] = a[1]*b[1];
 203 }
 204
 205 static inline void v2_div( v2f a, v2f b, v2f d )
 206 {
 207    d[0] = a[0]/b[0]; d[1] = a[1]/b[1];
 208 }
 209
 210 static inline void v2_muladd( v2f a, v2f b, v2f s, v2f d )
 211 {
 212    d[0] = a[0]+b[0]*s[0];
 213    d[1] = a[1]+b[1]*s[1];
 214 }
 215
 216 static inline void v2_muladds( v2f a, v2f b, f32 s, v2f d )
 217 {
 218    d[0] = a[0]+b[0]*s;
 219    d[1] = a[1]+b[1]*s;
 220 }
 221
 222 static inline f32 v2_length2( v2f a )
 223 {
 224    return a[0]*a[0] + a[1]*a[1];
 225 }
 226
 227 static inline f32 v2_length( v2f a )
 228 {
 229    return sqrtf( v2_length2( a ) );
 230 }
 231
 232 static inline f32 v2_dist2( v2f a, v2f b )
 233 {
 234    v2f delta;
 235    v2_sub( a, b, delta );
 236    return v2_length2( delta );
 237 }
 238
 239 static inline f32 v2_dist( v2f a, v2f b )
 240 {
 241    return sqrtf( v2_dist2( a, b ) );
 242 }
 243
 244 static inline void v2_lerp( v2f a, v2f b, f32 t, v2f d )
 245 {
 246    d[0] = a[0] + t*(b[0]-a[0]);
 247    d[1] = a[1] + t*(b[1]-a[1]);
 248 }
 249
 250 static inline void v2_normalize( v2f a )
 251 {
 252    v2_muls( a, 1.0f / v2_length( a ), a );
 253 }
 254
 255 static void v2_normalize_clamp( v2f a )
 256 {
 257    f32 l2 = v2_length2( a );
 258    if( l2 > 1.0f )
 259       v2_muls( a, 1.0f/sqrtf(l2), a );
 260 }
 261
 262 static inline void v2_floor( v2f a, v2f b )
 263 {
 264    b[0] = floorf( a[0] );
 265    b[1] = floorf( a[1] );
 266 }
 267
 268 static inline void v2_fill( v2f a, f32 v )
 269 {
 270    a[0] = v;
 271    a[1] = v;
 272 }
 273
 274 static inline void v2_copysign( v2f a, v2f b )
 275 {
 276    a[0] = copysignf( a[0], b[0] );
 277    a[1] = copysignf( a[1], b[1] );
 278 }
 279
 280 /* integer variants
 281  * ---------------- */
 282
 283 static inline void v2i_copy( v2i a, v2i b )
 284 {
 285    b[0] = a[0]; b[1] = a[1];
 286 }
 287
 288 static inline int v2i_eq( v2i a, v2i b )
 289 {
 290    return ((a[0] == b[0]) && (a[1] == b[1]));
 291 }
 292
 293 static inline void v2i_add( v2i a, v2i b, v2i d )
 294 {
 295    d[0] = a[0]+b[0]; d[1] = a[1]+b[1];
 296 }
 297
 298 static inline void v2i_sub( v2i a, v2i b, v2i d )
 299 {
 300    d[0] = a[0]-b[0]; d[1] = a[1]-b[1];
 301 }
 302
 303 /*
 304  * -----------------------------------------------------------------------------
 305  * Section 2.b                   3D Vectors
 306  * -----------------------------------------------------------------------------
 307  */
 308
 309 static inline void v3_copy( v3f a, v3f b )
 310 {
 311    b[0] = a[0]; b[1] = a[1]; b[2] = a[2];
 312 }
 313
 314 static inline void v3_zero( v3f a )
 315 {
 316    a[0] = 0.f; a[1] = 0.f; a[2] = 0.f;
 317 }
 318
 319 static inline void v3_add( v3f a, v3f b, v3f d )
 320 {
 321    d[0] = a[0]+b[0]; d[1] = a[1]+b[1]; d[2] = a[2]+b[2];
 322 }
 323
 324 static inline void v3i_add( v3i a, v3i b, v3i d )
 325 {
 326    d[0] = a[0]+b[0]; d[1] = a[1]+b[1]; d[2] = a[2]+b[2];
 327 }
 328
 329 static inline void v3_sub( v3f a, v3f b, v3f d )
 330 {
 331    d[0] = a[0]-b[0]; d[1] = a[1]-b[1]; d[2] = a[2]-b[2];
 332 }
 333
 334 static inline void v3i_sub( v3i a, v3i b, v3i d )
 335 {
 336    d[0] = a[0]-b[0]; d[1] = a[1]-b[1]; d[2] = a[2]-b[2];
 337 }
 338
 339 static inline void v3_mul( v3f a, v3f b, v3f d )
 340 {
 341    d[0] = a[0]*b[0]; d[1] = a[1]*b[1]; d[2] = a[2]*b[2];
 342 }
 343
 344 static inline void v3_div( v3f a, v3f b, v3f d )
 345 {
 346    d[0] = b[0]!=0.0f? a[0]/b[0]: INFINITY;
 347    d[1] = b[1]!=0.0f? a[1]/b[1]: INFINITY;
 348    d[2] = b[2]!=0.0f? a[2]/b[2]: INFINITY;
 349 }
 350
 351 static inline void v3_muls( v3f a, f32 s, v3f d )
 352 {
 353    d[0] = a[0]*s; d[1] = a[1]*s; d[2] = a[2]*s;
 354 }
 355
 356 static inline void v3_fill( v3f a, f32 v )
 357 {
 358    a[0] = v;
 359    a[1] = v;
 360    a[2] = v;
 361 }
 362
 363 static inline void v3_divs( v3f a, f32 s, v3f d )
 364 {
 365    if( s == 0.0f )
 366       v3_fill( d, INFINITY );
 367    else
 368    {
 369       d[0] = a[0]/s;
 370       d[1] = a[1]/s;
 371       d[2] = a[2]/s;
 372    }
 373 }
 374
 375 static inline void v3_muladds( v3f a, v3f b, f32 s, v3f d )
 376 {
 377    d[0] = a[0]+b[0]*s; d[1] = a[1]+b[1]*s; d[2] = a[2]+b[2]*s;
 378 }
 379
 380 static inline void v3_muladd( v2f a, v2f b, v2f s, v2f d )
 381 {
 382    d[0] = a[0]+b[0]*s[0];
 383    d[1] = a[1]+b[1]*s[1];
 384    d[2] = a[2]+b[2]*s[2];
 385 }
 386
 387 static inline f32 v3_dot( v3f a, v3f b )
 388 {
 389    return a[0] * b[0] + a[1] * b[1] + a[2] * b[2];
 390 }
 391
 392 static inline void v3_cross( v3f a, v3f b, v3f dest )
 393 {
 394    v3f d;
 395    d[0] = a[1]*b[2] - a[2]*b[1];
 396    d[1] = a[2]*b[0] - a[0]*b[2];
 397    d[2] = a[0]*b[1] - a[1]*b[0];
 398    v3_copy( d, dest );
 399 }
 400
 401 static inline f32 v3_length2( v3f a )
 402 {
 403    return v3_dot( a, a );
 404 }
 405
 406 static inline f32 v3_length( v3f a )
 407 {
 408    return sqrtf( v3_length2( a ) );
 409 }
 410
 411 static inline f32 v3_dist2( v3f a, v3f b )
 412 {
 413    v3f delta;
 414    v3_sub( a, b, delta );
 415    return v3_length2( delta );
 416 }
 417
 418 static inline f32 v3_dist( v3f a, v3f b )
 419 {
 420    return sqrtf( v3_dist2( a, b ) );
 421 }
 422
 423 static inline void v3_normalize( v3f a )
 424 {
 425    v3_muls( a, 1.f / v3_length( a ), a );
 426 }
 427
 428 static inline f32 vg_lerpf( f32 a, f32 b, f32 t ){
 429    return a + t*(b-a);
 430 }
 431
 432 static inline f64 vg_lerp( f64 a, f64 b, f64 t )
 433 {
 434    return a + t*(b-a);
 435 }
 436
 437 static inline void vg_slewf( f32 *a, f32 b, f32 speed ){
 438    f32 d = vg_signf( b-*a ),
 439        c = *a + d*speed;
 440    *a = vg_minf( b*d, c*d ) * d;
 441 }
 442
 443 static inline f32 vg_smoothstepf( f32 x ){
 444    return x*x*(3.0f - 2.0f*x);
 445 }
 446
 447
 448 /* correctly lerp around circular period -pi -> pi */
 449 static f32 vg_alerpf( f32 a, f32 b, f32 t )
 450 {
 451    f32 d = fmodf( b-a, VG_TAUf ),
 452          s = fmodf( 2.0f*d, VG_TAUf ) - d;
 453    return a + s*t;
 454 }
 455
 456 static inline void v3_lerp( v3f a, v3f b, f32 t, v3f d )
 457 {
 458    d[0] = a[0] + t*(b[0]-a[0]);
 459    d[1] = a[1] + t*(b[1]-a[1]);
 460    d[2] = a[2] + t*(b[2]-a[2]);
 461 }
 462
 463 static inline void v3_minv( v3f a, v3f b, v3f dest )
 464 {
 465    dest[0] = vg_minf(a[0], b[0]);
 466    dest[1] = vg_minf(a[1], b[1]);
 467    dest[2] = vg_minf(a[2], b[2]);
 468 }
 469
 470 static inline void v3_maxv( v3f a, v3f b, v3f dest )
 471 {
 472    dest[0] = vg_maxf(a[0], b[0]);
 473    dest[1] = vg_maxf(a[1], b[1]);
 474    dest[2] = vg_maxf(a[2], b[2]);
 475 }
 476
 477 static inline f32 v3_minf( v3f a )
 478 {
 479    return vg_minf( vg_minf( a[0], a[1] ), a[2] );
 480 }
 481
 482 static inline f32 v3_maxf( v3f a )
 483 {
 484    return vg_maxf( vg_maxf( a[0], a[1] ), a[2] );
 485 }
 486
 487 static inline void v3_floor( v3f a, v3f b )
 488 {
 489    b[0] = floorf( a[0] );
 490    b[1] = floorf( a[1] );
 491    b[2] = floorf( a[2] );
 492 }
 493
 494 static inline void v3_ceil( v3f a, v3f b )
 495 {
 496    b[0] = ceilf( a[0] );
 497    b[1] = ceilf( a[1] );
 498    b[2] = ceilf( a[2] );
 499 }
 500
 501 static inline void v3_negate( v3f a, v3f b )
 502 {
 503    b[0] = -a[0];
 504    b[1] = -a[1];
 505    b[2] = -a[2];
 506 }
 507
 508 static inline void v3_rotate( v3f v, f32 angle, v3f axis, v3f d )
 509 {
 510   v3f v1, v2, k;
 511   f32 c, s;
 512
 513   c = cosf( angle );
 514   s = sinf( angle );
 515
 516   v3_copy( axis, k );
 517   v3_normalize( k );
 518   v3_muls( v, c, v1 );
 519   v3_cross( k, v, v2 );
 520   v3_muls( v2, s, v2 );
 521   v3_add( v1, v2, v1 );
 522   v3_muls( k, v3_dot(k, v) * (1.0f - c), v2);
 523   v3_add( v1, v2, d );
 524 }
 525
 526 static void v3_tangent_basis( v3f n, v3f tx, v3f ty ){
 527    /* Compute tangent basis (box2d) */
 528    if( fabsf( n[0] ) >= 0.57735027f ){
 529       tx[0] =  n[1];
 530       tx[1] = -n[0];
 531       tx[2] =  0.0f;
 532    }
 533    else{
 534       tx[0] =  0.0f;
 535       tx[1] =  n[2];
 536       tx[2] = -n[1];
 537    }
 538
 539    v3_normalize( tx );
 540    v3_cross( n, tx, ty );
 541 }
 542
 543
 544 /*
 545  * -----------------------------------------------------------------------------
 546  * Section 2.c                   4D Vectors
 547  * -----------------------------------------------------------------------------
 548  */
 549
 550 static inline void v4_copy( v4f a, v4f b )
 551 {
 552    b[0] = a[0]; b[1] = a[1]; b[2] = a[2]; b[3] = a[3];
 553 }
 554
 555 static inline void v4_add( v4f a, v4f b, v4f d )
 556 {
 557    d[0] = a[0]+b[0];
 558    d[1] = a[1]+b[1];
 559    d[2] = a[2]+b[2];
 560    d[3] = a[3]+b[3];
 561 }
 562
 563 static inline void v4_zero( v4f a )
 564 {
 565    a[0] = 0.f; a[1] = 0.f; a[2] = 0.f; a[3] = 0.f;
 566 }
 567
 568 static inline void v4_muls( v4f a, f32 s, v4f d )
 569 {
 570    d[0] = a[0]*s;
 571    d[1] = a[1]*s;
 572    d[2] = a[2]*s;
 573    d[3] = a[3]*s;
 574 }
 575
 576 static inline void v4_muladds( v4f a, v4f b, f32 s, v4f d )
 577 {
 578    d[0] = a[0]+b[0]*s;
 579    d[1] = a[1]+b[1]*s;
 580    d[2] = a[2]+b[2]*s;
 581    d[3] = a[3]+b[3]*s;
 582 }
 583
 584 static inline void v4_lerp( v4f a, v4f b, f32 t, v4f d )
 585 {
 586    d[0] = a[0] + t*(b[0]-a[0]);
 587    d[1] = a[1] + t*(b[1]-a[1]);
 588    d[2] = a[2] + t*(b[2]-a[2]);
 589    d[3] = a[3] + t*(b[3]-a[3]);
 590 }
 591
 592 static inline f32 v4_dot( v4f a, v4f b )
 593 {
 594    return a[0]*b[0] + a[1]*b[1] + a[2]*b[2] + a[3]*b[3];
 595 }
 596
 597 static inline f32 v4_length( v4f a )
 598 {
 599    return sqrtf( v4_dot(a,a) );
 600 }
 601
 602 /*
 603  * -----------------------------------------------------------------------------
 604  * Section 3                   Quaternions
 605  * -----------------------------------------------------------------------------
 606  */
 607
 608 static inline void q_identity( v4f q )
 609 {
 610    q[0] = 0.0f; q[1] = 0.0f; q[2] = 0.0f; q[3] = 1.0f;
 611 }
 612
 613 static inline void q_axis_angle( v4f q, v3f axis, f32 angle )
 614 {
 615    f32 a = angle*0.5f,
 616          c = cosf(a),
 617          s = sinf(a);
 618
 619    q[0] = s*axis[0];
 620    q[1] = s*axis[1];
 621    q[2] = s*axis[2];
 622    q[3] = c;
 623 }
 624
 625 static inline void q_mul( v4f q, v4f q1, v4f d )
 626 {
 627    v4f t;
 628    t[0] = q[3]*q1[0] + q[0]*q1[3] + q[1]*q1[2] - q[2]*q1[1];
 629    t[1] = q[3]*q1[1] - q[0]*q1[2] + q[1]*q1[3] + q[2]*q1[0];
 630    t[2] = q[3]*q1[2] + q[0]*q1[1] - q[1]*q1[0] + q[2]*q1[3];
 631    t[3] = q[3]*q1[3] - q[0]*q1[0] - q[1]*q1[1] - q[2]*q1[2];
 632    v4_copy( t, d );
 633 }
 634
 635 static inline void q_normalize( v4f q )
 636 {
 637    f32 l2 = v4_dot(q,q);
 638    if( l2 < 0.00001f ) q_identity( q );
 639    else {
 640       f32 s = 1.0f/sqrtf(l2);
 641       q[0] *= s;
 642       q[1] *= s;
 643       q[2] *= s;
 644       q[3] *= s;
 645    }
 646 }
 647
 648 static inline void q_inv( v4f q, v4f d )
 649 {
 650    f32 s = 1.0f / v4_dot(q,q);
 651    d[0] = -q[0]*s;
 652    d[1] = -q[1]*s;
 653    d[2] = -q[2]*s;
 654    d[3] =  q[3]*s;
 655 }
 656
 657 static inline void q_nlerp( v4f a, v4f b, f32 t, v4f d ){
 658    if( v4_dot(a,b) < 0.0f ){
 659       v4f c;
 660       v4_muls( b, -1.0f, c );
 661       v4_lerp( a, c, t, d );
 662    }
 663    else
 664       v4_lerp( a, b, t, d );
 665
 666    q_normalize( d );
 667 }
 668
 669 static inline void q_m3x3( v4f q, m3x3f d )
 670 {
 671    f32
 672       l = v4_length(q),
 673       s = l > 0.0f? 2.0f/l: 0.0f,
 674
 675       xx = s*q[0]*q[0], xy = s*q[0]*q[1], wx = s*q[3]*q[0],
 676       yy = s*q[1]*q[1], yz = s*q[1]*q[2], wy = s*q[3]*q[1],
 677       zz = s*q[2]*q[2], xz = s*q[0]*q[2], wz = s*q[3]*q[2];
 678
 679    d[0][0] = 1.0f - yy - zz;
 680    d[1][1] = 1.0f - xx - zz;
 681    d[2][2] = 1.0f - xx - yy;
 682    d[0][1] = xy + wz;
 683    d[1][2] = yz + wx;
 684    d[2][0] = xz + wy;
 685    d[1][0] = xy - wz;
 686    d[2][1] = yz - wx;
 687    d[0][2] = xz - wy;
 688 }
 689
 690 static void q_mulv( v4f q, v3f v, v3f d )
 691 {
 692    v3f v1, v2;
 693
 694    v3_muls( q, 2.0f*v3_dot(q,v), v1 );
 695    v3_muls( v, q[3]*q[3] - v3_dot(q,q), v2 );
 696    v3_add( v1, v2, v1 );
 697    v3_cross( q, v, v2 );
 698    v3_muls( v2, 2.0f*q[3], v2 );
 699    v3_add( v1, v2, d );
 700 }
 701
 702 static f32 q_dist( v4f q0, v4f q1 ){
 703    return acosf( 2.0f * v4_dot(q0,q1) -1.0f );
 704 }
 705
 706 /*
 707  * -----------------------------------------------------------------------------
 708  * Section 4.a                  2x2 matrices
 709  * -----------------------------------------------------------------------------
 710  */
 711
 712 #define M2X2_INDENTIY {{1.0f, 0.0f, }, \
 713                        {0.0f, 1.0f, }}
 714
 715 #define M2X2_ZERO     {{0.0f, 0.0f, }, \
 716                        {0.0f, 0.0f, }}
 717
 718 static inline void m2x2_copy( m2x2f a, m2x2f b )
 719 {
 720    v2_copy( a[0], b[0] );
 721    v2_copy( a[1], b[1] );
 722 }
 723
 724 static inline void m2x2_identity( m2x2f a )
 725 {
 726    m2x2f id = M2X2_INDENTIY;
 727    m2x2_copy( id, a );
 728 }
 729
 730 static inline void m2x2_create_rotation( m2x2f a, f32 theta )
 731 {
 732    f32 s, c;
 733
 734    s = sinf( theta );
 735    c = cosf( theta );
 736
 737    a[0][0] =  c;
 738    a[0][1] = -s;
 739    a[1][0] =  s;
 740    a[1][1] =  c;
 741 }
 742
 743 static inline void m2x2_mulv( m2x2f m, v2f v, v2f d )
 744 {
 745    v2f res;
 746
 747    res[0] = m[0][0]*v[0] + m[1][0]*v[1];
 748    res[1] = m[0][1]*v[0] + m[1][1]*v[1];
 749
 750    v2_copy( res, d );
 751 }
 752
 753 /*
 754  * -----------------------------------------------------------------------------
 755  * Section 4.b                  3x3 matrices
 756  * -----------------------------------------------------------------------------
 757  */
 758
 759 #define M3X3_IDENTITY   {{1.0f, 0.0f, 0.0f, },\
 760                         { 0.0f, 1.0f, 0.0f, },\
 761                         { 0.0f, 0.0f, 1.0f, }}
 762
 763 #define M3X3_ZERO       {{0.0f, 0.0f, 0.0f, },\
 764                         { 0.0f, 0.0f, 0.0f, },\
 765                         { 0.0f, 0.0f, 0.0f, }}
 766
 767
 768 static void euler_m3x3( v3f angles, m3x3f d )
 769 {
 770    f32 cosY = cosf( angles[0] ),
 771        sinY = sinf( angles[0] ),
 772        cosP = cosf( angles[1] ),
 773        sinP = sinf( angles[1] ),
 774        cosR = cosf( angles[2] ),
 775        sinR = sinf( angles[2] );
 776
 777    d[2][0] = -sinY * cosP;
 778    d[2][1] =  sinP;
 779    d[2][2] =  cosY * cosP;
 780
 781    d[0][0] =  cosY * cosR;
 782    d[0][1] =  sinR;
 783    d[0][2] =  sinY * cosR;
 784
 785    v3_cross( d[0], d[2], d[1] );
 786 }
 787
 788 static void m3x3_q( m3x3f m, v4f q )
 789 {
 790    f32 diag, r, rinv;
 791
 792    diag = m[0][0] + m[1][1] + m[2][2];
 793    if( diag >= 0.0f )
 794    {
 795       r    = sqrtf( 1.0f + diag );
 796       rinv = 0.5f / r;
 797       q[0] = rinv * (m[1][2] - m[2][1]);
 798       q[1] = rinv * (m[2][0] - m[0][2]);
 799       q[2] = rinv * (m[0][1] - m[1][0]);
 800       q[3] = r    * 0.5f;
 801    }
 802    else if( m[0][0] >= m[1][1] && m[0][0] >= m[2][2] )
 803    {
 804       r    = sqrtf( 1.0f - m[1][1] - m[2][2] + m[0][0] );
 805       rinv = 0.5f / r;
 806       q[0] = r    * 0.5f;
 807       q[1] = rinv * (m[0][1] + m[1][0]);
 808       q[2] = rinv * (m[0][2] + m[2][0]);
 809       q[3] = rinv * (m[1][2] - m[2][1]);
 810    }
 811    else if( m[1][1] >= m[2][2] )
 812    {
 813       r    = sqrtf( 1.0f - m[0][0] - m[2][2] + m[1][1] );
 814       rinv = 0.5f / r;
 815       q[0] = rinv * (m[0][1] + m[1][0]);
 816       q[1] = r    * 0.5f;
 817       q[2] = rinv * (m[1][2] + m[2][1]);
 818       q[3] = rinv * (m[2][0] - m[0][2]);
 819    }
 820    else
 821    {
 822       r    = sqrtf( 1.0f - m[0][0] - m[1][1] + m[2][2] );
 823       rinv = 0.5f / r;
 824       q[0] = rinv * (m[0][2] + m[2][0]);
 825       q[1] = rinv * (m[1][2] + m[2][1]);
 826       q[2] = r    * 0.5f;
 827       q[3] = rinv * (m[0][1] - m[1][0]);
 828    }
 829 }
 830
 831 /* a X b == [b]T a == ...*/
 832 static void m3x3_skew_symetric( m3x3f a, v3f v )
 833 {
 834    a[0][0] =  0.0f;
 835    a[0][1] =  v[2];
 836    a[0][2] = -v[1];
 837    a[1][0] = -v[2];
 838    a[1][1] =  0.0f;
 839    a[1][2] =  v[0];
 840    a[2][0] =  v[1];
 841    a[2][1] = -v[0];
 842    a[2][2] =  0.0f;
 843 }
 844
 845 static void m3x3_add( m3x3f a, m3x3f b, m3x3f d )
 846 {
 847    v3_add( a[0], b[0], d[0] );
 848    v3_add( a[1], b[1], d[1] );
 849    v3_add( a[2], b[2], d[2] );
 850 }
 851
 852 static inline void m3x3_copy( m3x3f a, m3x3f b )
 853 {
 854    v3_copy( a[0], b[0] );
 855    v3_copy( a[1], b[1] );
 856    v3_copy( a[2], b[2] );
 857 }
 858
 859 static inline void m3x3_identity( m3x3f a )
 860 {
 861    m3x3f id = M3X3_IDENTITY;
 862    m3x3_copy( id, a );
 863 }
 864
 865 static void m3x3_diagonal( m3x3f a, f32 v )
 866 {
 867    m3x3_identity( a );
 868    a[0][0] = v;
 869    a[1][1] = v;
 870    a[2][2] = v;
 871 }
 872
 873 static void m3x3_setdiagonalv3( m3x3f a, v3f v )
 874 {
 875    a[0][0] = v[0];
 876    a[1][1] = v[1];
 877    a[2][2] = v[2];
 878 }
 879
 880 static inline void m3x3_zero( m3x3f a )
 881 {
 882    m3x3f z = M3X3_ZERO;
 883    m3x3_copy( z, a );
 884 }
 885
 886 static inline void m3x3_inv( m3x3f src, m3x3f dest )
 887 {
 888    f32 a = src[0][0], b = src[0][1], c = src[0][2],
 889          d = src[1][0], e = src[1][1], f = src[1][2],
 890          g = src[2][0], h = src[2][1], i = src[2][2];
 891
 892    f32 det =    1.f /
 893                (+a*(e*i-h*f)
 894                 -b*(d*i-f*g)
 895                 +c*(d*h-e*g));
 896
 897    dest[0][0] =  (e*i-h*f)*det;
 898    dest[0][1] = -(b*i-c*h)*det;
 899    dest[0][2] =  (b*f-c*e)*det;
 900    dest[1][0] = -(d*i-f*g)*det;
 901    dest[1][1] =  (a*i-c*g)*det;
 902    dest[1][2] = -(a*f-d*c)*det;
 903    dest[2][0] =  (d*h-g*e)*det;
 904    dest[2][1] = -(a*h-g*b)*det;
 905    dest[2][2] =  (a*e-d*b)*det;
 906 }
 907
 908 static f32 m3x3_det( m3x3f m )
 909 {
 910    return   m[0][0] * (m[1][1] * m[2][2] - m[2][1] * m[1][2])
 911           - m[0][1] * (m[1][0] * m[2][2] - m[1][2] * m[2][0])
 912           + m[0][2] * (m[1][0] * m[2][1] - m[1][1] * m[2][0]);
 913 }
 914
 915 static inline void m3x3_transpose( m3x3f src, m3x3f dest )
 916 {
 917    f32 a = src[0][0], b = src[0][1], c = src[0][2],
 918          d = src[1][0], e = src[1][1], f = src[1][2],
 919          g = src[2][0], h = src[2][1], i = src[2][2];
 920
 921    dest[0][0] = a;
 922    dest[0][1] = d;
 923    dest[0][2] = g;
 924    dest[1][0] = b;
 925    dest[1][1] = e;
 926    dest[1][2] = h;
 927    dest[2][0] = c;
 928    dest[2][1] = f;
 929    dest[2][2] = i;
 930 }
 931
 932 static inline void m3x3_mul( m3x3f a, m3x3f b, m3x3f d )
 933 {
 934    f32 a00 = a[0][0], a01 = a[0][1], a02 = a[0][2],
 935          a10 = a[1][0], a11 = a[1][1], a12 = a[1][2],
 936          a20 = a[2][0], a21 = a[2][1], a22 = a[2][2],
 937
 938          b00 = b[0][0], b01 = b[0][1], b02 = b[0][2],
 939          b10 = b[1][0], b11 = b[1][1], b12 = b[1][2],
 940          b20 = b[2][0], b21 = b[2][1], b22 = b[2][2];
 941
 942    d[0][0] = a00*b00 + a10*b01 + a20*b02;
 943    d[0][1] = a01*b00 + a11*b01 + a21*b02;
 944    d[0][2] = a02*b00 + a12*b01 + a22*b02;
 945    d[1][0] = a00*b10 + a10*b11 + a20*b12;
 946    d[1][1] = a01*b10 + a11*b11 + a21*b12;
 947    d[1][2] = a02*b10 + a12*b11 + a22*b12;
 948    d[2][0] = a00*b20 + a10*b21 + a20*b22;
 949    d[2][1] = a01*b20 + a11*b21 + a21*b22;
 950    d[2][2] = a02*b20 + a12*b21 + a22*b22;
 951 }
 952
 953 static inline void m3x3_mulv( m3x3f m, v3f v, v3f d )
 954 {
 955    v3f res;
 956
 957    res[0] = m[0][0]*v[0] + m[1][0]*v[1] + m[2][0]*v[2];
 958    res[1] = m[0][1]*v[0] + m[1][1]*v[1] + m[2][1]*v[2];
 959    res[2] = m[0][2]*v[0] + m[1][2]*v[1] + m[2][2]*v[2];
 960
 961    v3_copy( res, d );
 962 }
 963
 964 static inline void m3x3_projection( m3x3f dst,
 965       f32 const left, f32 const right, f32 const bottom, f32 const top )
 966 {
 967    f32 rl, tb;
 968
 969    m3x3_zero( dst );
 970
 971    rl = 1.0f / (right - left);
 972    tb = 1.0f / (top   - bottom);
 973
 974    dst[0][0] = 2.0f * rl;
 975    dst[1][1] = 2.0f * tb;
 976    dst[2][2] = 1.0f;
 977 }
 978
 979 static inline void m3x3_translate( m3x3f m, v3f v )
 980 {
 981    m[2][0] = m[0][0] * v[0] + m[1][0] * v[1] + m[2][0];
 982    m[2][1] = m[0][1] * v[0] + m[1][1] * v[1] + m[2][1];
 983    m[2][2] = m[0][2] * v[0] + m[1][2] * v[1] + m[2][2];
 984 }
 985
 986 static inline void m3x3_scale( m3x3f m, v3f v )
 987 {
 988    v3_muls( m[0], v[0], m[0] );
 989    v3_muls( m[1], v[1], m[1] );
 990    v3_muls( m[2], v[2], m[2] );
 991 }
 992
 993 static inline void m3x3_scalef( m3x3f m, f32 f )
 994 {
 995    v3f v;
 996    v3_fill( v, f );
 997    m3x3_scale( m, v );
 998 }
 999
1000 static inline void m3x3_rotate( m3x3f m, f32 angle )
1001 {
1002    f32 m00 = m[0][0], m10 = m[1][0],
1003          m01 = m[0][1], m11 = m[1][1],
1004          m02 = m[0][2], m12 = m[1][2];
1005    f32 c, s;
1006
1007    s = sinf( angle );
1008    c = cosf( angle );
1009
1010    m[0][0] = m00 * c + m10 * s;
1011    m[0][1] = m01 * c + m11 * s;
1012    m[0][2] = m02 * c + m12 * s;
1013
1014    m[1][0] = m00 * -s + m10 * c;
1015    m[1][1] = m01 * -s + m11 * c;
1016    m[1][2] = m02 * -s + m12 * c;
1017 }
1018
1019 /*
1020  * -----------------------------------------------------------------------------
1021  * Section 4.c                  4x3 matrices
1022  * -----------------------------------------------------------------------------
1023  */
1024
1025 #define M4X3_IDENTITY   {{1.0f, 0.0f, 0.0f, },\
1026                         { 0.0f, 1.0f, 0.0f, },\
1027                         { 0.0f, 0.0f, 1.0f, },\
1028                         { 0.0f, 0.0f, 0.0f }}
1029
1030 static inline void m4x3_to_3x3( m4x3f a, m3x3f b )
1031 {
1032    v3_copy( a[0], b[0] );
1033    v3_copy( a[1], b[1] );
1034    v3_copy( a[2], b[2] );
1035 }
1036
1037 static inline void m4x3_invert_affine( m4x3f a, m4x3f b )
1038 {
1039    m3x3_transpose( a, b );
1040    m3x3_mulv( b, a[3], b[3] );
1041    v3_negate( b[3], b[3] );
1042 }
1043
1044 static void m4x3_invert_full( m4x3f src, m4x3f dst )
1045 {
1046   f32 t2, t4, t5,
1047         det,
1048         a = src[0][0], b = src[0][1], c = src[0][2],
1049         e = src[1][0], f = src[1][1], g = src[1][2],
1050         i = src[2][0], j = src[2][1], k = src[2][2],
1051         m = src[3][0], n = src[3][1], o = src[3][2];
1052
1053    t2 = j*o - n*k;
1054    t4 = i*o - m*k;
1055    t5 = i*n - m*j;
1056
1057    dst[0][0] =  f*k - g*j;
1058    dst[1][0] =-(e*k - g*i);
1059    dst[2][0] =  e*j - f*i;
1060    dst[3][0] =-(e*t2 - f*t4 + g*t5);
1061
1062    dst[0][1] =-(b*k - c*j);
1063    dst[1][1] =  a*k - c*i;
1064    dst[2][1] =-(a*j - b*i);
1065    dst[3][1] =  a*t2 - b*t4 + c*t5;
1066
1067    t2 = f*o - n*g;
1068    t4 = e*o - m*g;
1069    t5 = e*n - m*f;
1070
1071    dst[0][2] =  b*g - c*f ;
1072    dst[1][2] =-(a*g - c*e );
1073    dst[2][2] =  a*f - b*e ;
1074    dst[3][2] =-(a*t2 - b*t4 + c * t5);
1075
1076    det = 1.0f / (a * dst[0][0] + b * dst[1][0] + c * dst[2][0]);
1077    v3_muls( dst[0], det, dst[0] );
1078    v3_muls( dst[1], det, dst[1] );
1079    v3_muls( dst[2], det, dst[2] );
1080    v3_muls( dst[3], det, dst[3] );
1081 }
1082
1083 static inline void m4x3_copy( m4x3f a, m4x3f b )
1084 {
1085    v3_copy( a[0], b[0] );
1086    v3_copy( a[1], b[1] );
1087    v3_copy( a[2], b[2] );
1088    v3_copy( a[3], b[3] );
1089 }
1090
1091 static inline void m4x3_identity( m4x3f a )
1092 {
1093    m4x3f id = M4X3_IDENTITY;
1094    m4x3_copy( id, a );
1095 }
1096
1097 static void m4x3_mul( m4x3f a, m4x3f b, m4x3f d )
1098 {
1099    f32
1100    a00 = a[0][0], a01 = a[0][1], a02 = a[0][2],
1101    a10 = a[1][0], a11 = a[1][1], a12 = a[1][2],
1102    a20 = a[2][0], a21 = a[2][1], a22 = a[2][2],
1103    a30 = a[3][0], a31 = a[3][1], a32 = a[3][2],
1104    b00 = b[0][0], b01 = b[0][1], b02 = b[0][2],
1105    b10 = b[1][0], b11 = b[1][1], b12 = b[1][2],
1106    b20 = b[2][0], b21 = b[2][1], b22 = b[2][2],
1107    b30 = b[3][0], b31 = b[3][1], b32 = b[3][2];
1108
1109    d[0][0] = a00*b00 + a10*b01 + a20*b02;
1110    d[0][1] = a01*b00 + a11*b01 + a21*b02;
1111    d[0][2] = a02*b00 + a12*b01 + a22*b02;
1112    d[1][0] = a00*b10 + a10*b11 + a20*b12;
1113    d[1][1] = a01*b10 + a11*b11 + a21*b12;
1114    d[1][2] = a02*b10 + a12*b11 + a22*b12;
1115    d[2][0] = a00*b20 + a10*b21 + a20*b22;
1116    d[2][1] = a01*b20 + a11*b21 + a21*b22;
1117    d[2][2] = a02*b20 + a12*b21 + a22*b22;
1118    d[3][0] = a00*b30 + a10*b31 + a20*b32 + a30;
1119    d[3][1] = a01*b30 + a11*b31 + a21*b32 + a31;
1120    d[3][2] = a02*b30 + a12*b31 + a22*b32 + a32;
1121 }
1122
1123 #if 0 /* shat appf mingw wstringop-overflow */
1124 inline
1125 #endif
1126 static void m4x3_mulv( m4x3f m, v3f v, v3f d )
1127 {
1128    v3f res;
1129
1130    res[0] = m[0][0]*v[0] + m[1][0]*v[1] + m[2][0]*v[2] + m[3][0];
1131    res[1] = m[0][1]*v[0] + m[1][1]*v[1] + m[2][1]*v[2] + m[3][1];
1132    res[2] = m[0][2]*v[0] + m[1][2]*v[1] + m[2][2]*v[2] + m[3][2];
1133
1134    v3_copy( res, d );
1135 }
1136
1137 /*
1138  * Transform plane ( xyz, distance )
1139  */
1140 static void m4x3_mulp( m4x3f m, v4f p, v4f d )
1141 {
1142    v3f o;
1143
1144    v3_muls( p, p[3], o );
1145    m4x3_mulv( m, o, o );
1146    m3x3_mulv( m, p, d );
1147
1148    d[3] = v3_dot( o, d );
1149 }
1150
1151 /*
1152  * Affine transforms
1153  */
1154
1155 static void m4x3_translate( m4x3f m, v3f v )
1156 {
1157    v3_muladds( m[3], m[0], v[0], m[3] );
1158    v3_muladds( m[3], m[1], v[1], m[3] );
1159    v3_muladds( m[3], m[2], v[2], m[3] );
1160 }
1161
1162 static void m4x3_rotate_x( m4x3f m, f32 angle )
1163 {
1164    m4x3f t = M4X3_IDENTITY;
1165    f32 c, s;
1166
1167    c = cosf( angle );
1168    s = sinf( angle );
1169
1170    t[1][1] =  c;
1171    t[1][2] =  s;
1172    t[2][1] = -s;
1173    t[2][2] =  c;
1174
1175    m4x3_mul( m, t, m );
1176 }
1177
1178 static void m4x3_rotate_y( m4x3f m, f32 angle )
1179 {
1180    m4x3f t = M4X3_IDENTITY;
1181    f32 c, s;
1182
1183    c = cosf( angle );
1184    s = sinf( angle );
1185
1186    t[0][0] =  c;
1187    t[0][2] = -s;
1188    t[2][0] =  s;
1189    t[2][2] =  c;
1190
1191    m4x3_mul( m, t, m );
1192 }
1193
1194 static void m4x3_rotate_z( m4x3f m, f32 angle )
1195 {
1196    m4x3f t = M4X3_IDENTITY;
1197    f32 c, s;
1198
1199    c = cosf( angle );
1200    s = sinf( angle );
1201
1202    t[0][0] =  c;
1203    t[0][1] =  s;
1204    t[1][0] = -s;
1205    t[1][1] =  c;
1206
1207    m4x3_mul( m, t, m );
1208 }
1209
1210 static void m4x3_expand( m4x3f m, m4x4f d )
1211 {
1212    v3_copy( m[0], d[0] );
1213    v3_copy( m[1], d[1] );
1214    v3_copy( m[2], d[2] );
1215    v3_copy( m[3], d[3] );
1216    d[0][3] = 0.0f;
1217    d[1][3] = 0.0f;
1218    d[2][3] = 0.0f;
1219    d[3][3] = 1.0f;
1220 }
1221
1222 static void m4x3_decompose( m4x3f m, v3f co, v4f q, v3f s )
1223 {
1224    v3_copy( m[3], co );
1225    s[0] = v3_length(m[0]);
1226    s[1] = v3_length(m[1]);
1227    s[2] = v3_length(m[2]);
1228
1229    m3x3f rot;
1230    v3_divs( m[0], s[0], rot[0] );
1231    v3_divs( m[1], s[1], rot[1] );
1232    v3_divs( m[2], s[2], rot[2] );
1233
1234    m3x3_q( rot, q );
1235 }
1236
1237 static void m4x3_expand_aabb_point( m4x3f m, boxf box, v3f point ){
1238    v3f v;
1239    m4x3_mulv( m, point, v );
1240
1241    v3_minv( box[0], v, box[0] );
1242    v3_maxv( box[1], v, box[1] );
1243 }
1244
1245 static void m4x3_expand_aabb_aabb( m4x3f m, boxf boxa, boxf boxb ){
1246    v3f a; v3f b;
1247    v3_copy( boxb[0], a );
1248    v3_copy( boxb[1], b );
1249    m4x3_expand_aabb_point( m, boxa, (v3f){ a[0], a[1], a[2] } );
1250    m4x3_expand_aabb_point( m, boxa, (v3f){ a[0], b[1], a[2] } );
1251    m4x3_expand_aabb_point( m, boxa, (v3f){ b[0], b[1], a[2] } );
1252    m4x3_expand_aabb_point( m, boxa, (v3f){ b[0], a[1], a[2] } );
1253    m4x3_expand_aabb_point( m, boxa, (v3f){ a[0], a[1], b[2] } );
1254    m4x3_expand_aabb_point( m, boxa, (v3f){ a[0], b[1], b[2] } );
1255    m4x3_expand_aabb_point( m, boxa, (v3f){ b[0], b[1], b[2] } );
1256    m4x3_expand_aabb_point( m, boxa, (v3f){ b[0], a[1], b[2] } );
1257 }
1258 static inline void m4x3_lookat( m4x3f m, v3f pos, v3f target, v3f up )
1259 {
1260    v3f dir;
1261    v3_sub( target, pos, dir );
1262    v3_normalize( dir );
1263
1264    v3_copy( dir, m[2] );
1265
1266    v3_cross( up, m[2], m[0] );
1267    v3_normalize( m[0] );
1268
1269    v3_cross( m[2], m[0], m[1] );
1270    v3_copy( pos, m[3] );
1271 }
1272
1273 /*
1274  * -----------------------------------------------------------------------------
1275  * Section 4.d                  4x4 matrices
1276  * -----------------------------------------------------------------------------
1277  */
1278
1279 #define M4X4_IDENTITY   {{1.0f, 0.0f, 0.0f, 0.0f },\
1280                         { 0.0f, 1.0f, 0.0f, 0.0f },\
1281                         { 0.0f, 0.0f, 1.0f, 0.0f },\
1282                         { 0.0f, 0.0f, 0.0f, 1.0f }}
1283 #define M4X4_ZERO       {{0.0f, 0.0f, 0.0f, 0.0f },\
1284                         { 0.0f, 0.0f, 0.0f, 0.0f },\
1285                         { 0.0f, 0.0f, 0.0f, 0.0f },\
1286                         { 0.0f, 0.0f, 0.0f, 0.0f }}
1287
1288 static void m4x4_projection( m4x4f m, f32 angle,
1289                              f32 ratio, f32 fnear, f32 ffar )
1290 {
1291    f32 scale = tanf( angle * 0.5f * VG_PIf / 180.0f ) * fnear,
1292          r = ratio * scale,
1293          l = -r,
1294          t = scale,
1295          b = -t;
1296
1297    m[0][0] =  2.0f * fnear / (r - l);
1298    m[0][1] =  0.0f;
1299    m[0][2] =  0.0f;
1300    m[0][3] =  0.0f;
1301
1302    m[1][0] =  0.0f;
1303    m[1][1] =  2.0f * fnear / (t - b);
1304    m[1][2] =  0.0f;
1305    m[1][3] =  0.0f;
1306
1307    m[2][0] =  (r + l) / (r - l);
1308    m[2][1] =  (t + b) / (t - b);
1309    m[2][2] = -(ffar + fnear) / (ffar - fnear);
1310    m[2][3] = -1.0f;
1311
1312    m[3][0] =  0.0f;
1313    m[3][1] =  0.0f;
1314    m[3][2] = -2.0f * ffar * fnear / (ffar - fnear);
1315    m[3][3] =  0.0f;
1316 }
1317
1318 static void m4x4_translate( m4x4f m, v3f v )
1319 {
1320    v4_muladds( m[3], m[0], v[0], m[3] );
1321    v4_muladds( m[3], m[1], v[1], m[3] );
1322    v4_muladds( m[3], m[2], v[2], m[3] );
1323 }
1324
1325 static inline void m4x4_copy( m4x4f a, m4x4f b )
1326 {
1327    v4_copy( a[0], b[0] );
1328    v4_copy( a[1], b[1] );
1329    v4_copy( a[2], b[2] );
1330    v4_copy( a[3], b[3] );
1331 }
1332
1333 static inline void m4x4_identity( m4x4f a )
1334 {
1335    m4x4f id = M4X4_IDENTITY;
1336    m4x4_copy( id, a );
1337 }
1338
1339 static inline void m4x4_zero( m4x4f a )
1340 {
1341    m4x4f zero = M4X4_ZERO;
1342    m4x4_copy( zero, a );
1343 }
1344
1345 static inline void m4x4_mul( m4x4f a, m4x4f b, m4x4f d )
1346 {
1347    f32 a00 = a[0][0], a01 = a[0][1], a02 = a[0][2], a03 = a[0][3],
1348          a10 = a[1][0], a11 = a[1][1], a12 = a[1][2], a13 = a[1][3],
1349          a20 = a[2][0], a21 = a[2][1], a22 = a[2][2], a23 = a[2][3],
1350          a30 = a[3][0], a31 = a[3][1], a32 = a[3][2], a33 = a[3][3],
1351
1352          b00 = b[0][0], b01 = b[0][1], b02 = b[0][2], b03 = b[0][3],
1353          b10 = b[1][0], b11 = b[1][1], b12 = b[1][2], b13 = b[1][3],
1354          b20 = b[2][0], b21 = b[2][1], b22 = b[2][2], b23 = b[2][3],
1355          b30 = b[3][0], b31 = b[3][1], b32 = b[3][2], b33 = b[3][3];
1356
1357   d[0][0] = a00*b00 + a10*b01 + a20*b02 + a30*b03;
1358   d[0][1] = a01*b00 + a11*b01 + a21*b02 + a31*b03;
1359   d[0][2] = a02*b00 + a12*b01 + a22*b02 + a32*b03;
1360   d[0][3] = a03*b00 + a13*b01 + a23*b02 + a33*b03;
1361   d[1][0] = a00*b10 + a10*b11 + a20*b12 + a30*b13;
1362   d[1][1] = a01*b10 + a11*b11 + a21*b12 + a31*b13;
1363   d[1][2] = a02*b10 + a12*b11 + a22*b12 + a32*b13;
1364   d[1][3] = a03*b10 + a13*b11 + a23*b12 + a33*b13;
1365   d[2][0] = a00*b20 + a10*b21 + a20*b22 + a30*b23;
1366   d[2][1] = a01*b20 + a11*b21 + a21*b22 + a31*b23;
1367   d[2][2] = a02*b20 + a12*b21 + a22*b22 + a32*b23;
1368   d[2][3] = a03*b20 + a13*b21 + a23*b22 + a33*b23;
1369   d[3][0] = a00*b30 + a10*b31 + a20*b32 + a30*b33;
1370   d[3][1] = a01*b30 + a11*b31 + a21*b32 + a31*b33;
1371   d[3][2] = a02*b30 + a12*b31 + a22*b32 + a32*b33;
1372   d[3][3] = a03*b30 + a13*b31 + a23*b32 + a33*b33;
1373 }
1374
1375 static inline void m4x4_mulv( m4x4f m, v4f v, v4f d )
1376 {
1377    v4f res;
1378
1379    res[0] = m[0][0]*v[0] + m[1][0]*v[1] + m[2][0]*v[2] + m[3][0]*v[3];
1380    res[1] = m[0][1]*v[0] + m[1][1]*v[1] + m[2][1]*v[2] + m[3][1]*v[3];
1381    res[2] = m[0][2]*v[0] + m[1][2]*v[1] + m[2][2]*v[2] + m[3][2]*v[3];
1382    res[3] = m[0][3]*v[0] + m[1][3]*v[1] + m[2][3]*v[2] + m[3][3]*v[3];
1383
1384    v4_copy( res, d );
1385 }
1386
1387 static inline void m4x4_inv( m4x4f a, m4x4f d )
1388 {
1389    f32 a00 = a[0][0], a01 = a[0][1], a02 = a[0][2], a03 = a[0][3],
1390          a10 = a[1][0], a11 = a[1][1], a12 = a[1][2], a13 = a[1][3],
1391          a20 = a[2][0], a21 = a[2][1], a22 = a[2][2], a23 = a[2][3],
1392          a30 = a[3][0], a31 = a[3][1], a32 = a[3][2], a33 = a[3][3],
1393          det,
1394          t[6];
1395
1396    t[0] = a22*a33 - a32*a23;
1397    t[1] = a21*a33 - a31*a23;
1398    t[2] = a21*a32 - a31*a22;
1399    t[3] = a20*a33 - a30*a23;
1400    t[4] = a20*a32 - a30*a22;
1401    t[5] = a20*a31 - a30*a21;
1402
1403    d[0][0] =  a11*t[0] - a12*t[1] + a13*t[2];
1404    d[1][0] =-(a10*t[0] - a12*t[3] + a13*t[4]);
1405    d[2][0] =  a10*t[1] - a11*t[3] + a13*t[5];
1406    d[3][0] =-(a10*t[2] - a11*t[4] + a12*t[5]);
1407
1408    d[0][1] =-(a01*t[0] - a02*t[1] + a03*t[2]);
1409    d[1][1] =  a00*t[0] - a02*t[3] + a03*t[4];
1410    d[2][1] =-(a00*t[1] - a01*t[3] + a03*t[5]);
1411    d[3][1] =  a00*t[2] - a01*t[4] + a02*t[5];
1412
1413    t[0] = a12*a33 - a32*a13;
1414    t[1] = a11*a33 - a31*a13;
1415    t[2] = a11*a32 - a31*a12;
1416    t[3] = a10*a33 - a30*a13;
1417    t[4] = a10*a32 - a30*a12;
1418    t[5] = a10*a31 - a30*a11;
1419
1420    d[0][2] =  a01*t[0] - a02*t[1] + a03*t[2];
1421    d[1][2] =-(a00*t[0] - a02*t[3] + a03*t[4]);
1422    d[2][2] =  a00*t[1] - a01*t[3] + a03*t[5];
1423    d[3][2] =-(a00*t[2] - a01*t[4] + a02*t[5]);
1424
1425    t[0] = a12*a23 - a22*a13;
1426    t[1] = a11*a23 - a21*a13;
1427    t[2] = a11*a22 - a21*a12;
1428    t[3] = a10*a23 - a20*a13;
1429    t[4] = a10*a22 - a20*a12;
1430    t[5] = a10*a21 - a20*a11;
1431
1432    d[0][3] =-(a01*t[0] - a02*t[1] + a03*t[2]);
1433    d[1][3] =  a00*t[0] - a02*t[3] + a03*t[4];
1434    d[2][3] =-(a00*t[1] - a01*t[3] + a03*t[5]);
1435    d[3][3] =  a00*t[2] - a01*t[4] + a02*t[5];
1436
1437    det = 1.0f / (a00*d[0][0] + a01*d[1][0] + a02*d[2][0] + a03*d[3][0]);
1438    v4_muls( d[0], det, d[0] );
1439    v4_muls( d[1], det, d[1] );
1440    v4_muls( d[2], det, d[2] );
1441    v4_muls( d[3], det, d[3] );
1442 }
1443
1444 /*
1445  * -----------------------------------------------------------------------------
1446  * Section 5.a                       Boxes
1447  * -----------------------------------------------------------------------------
1448  */
1449
1450 static inline void box_addpt( boxf a, v3f pt )
1451 {
1452    v3_minv( a[0], pt, a[0] );
1453    v3_maxv( a[1], pt, a[1] );
1454 }
1455
1456 static inline void box_concat( boxf a, boxf b )
1457 {
1458    v3_minv( a[0], b[0], a[0] );
1459    v3_maxv( a[1], b[1], a[1] );
1460 }
1461
1462 static inline void box_copy( boxf a, boxf b )
1463 {
1464    v3_copy( a[0], b[0] );
1465    v3_copy( a[1], b[1] );
1466 }
1467
1468 static inline int box_overlap( boxf a, boxf b )
1469 {
1470    return
1471    ( a[0][0] <= b[1][0] && a[1][0] >= b[0][0] ) &&
1472    ( a[0][1] <= b[1][1] && a[1][1] >= b[0][1] ) &&
1473    ( a[0][2] <= b[1][2] && a[1][2] >= b[0][2] )
1474    ;
1475 }
1476
1477 static int box_within( boxf greater, boxf lesser )
1478 {
1479    v3f a, b;
1480    v3_sub( lesser[0], greater[0], a );
1481    v3_sub( lesser[1], greater[1], b );
1482
1483    if( (a[0] >= 0.0f) && (a[1] >= 0.0f) && (a[2] >= 0.0f) &&
1484        (b[0] <= 0.0f) && (b[1] <= 0.0f) && (b[2] <= 0.0f) )
1485    {
1486       return 1;
1487    }
1488
1489    return 0;
1490 }
1491
1492 static inline void box_init_inf( boxf box ){
1493    v3_fill( box[0],  INFINITY );
1494    v3_fill( box[1], -INFINITY );
1495 }
1496
1497 /*
1498  * -----------------------------------------------------------------------------
1499  * Section 5.b                       Planes
1500  * -----------------------------------------------------------------------------
1501  */
1502
1503 static inline void tri_to_plane( f64 a[3], f64 b[3],
1504       f64 c[3], f64 p[4] )
1505 {
1506    f64 edge0[3];
1507    f64 edge1[3];
1508    f64 l;
1509
1510    edge0[0] = b[0] - a[0];
1511    edge0[1] = b[1] - a[1];
1512    edge0[2] = b[2] - a[2];
1513
1514    edge1[0] = c[0] - a[0];
1515    edge1[1] = c[1] - a[1];
1516    edge1[2] = c[2] - a[2];
1517
1518    p[0] = edge0[1] * edge1[2] - edge0[2] * edge1[1];
1519    p[1] = edge0[2] * edge1[0] - edge0[0] * edge1[2];
1520    p[2] = edge0[0] * edge1[1] - edge0[1] * edge1[0];
1521
1522    l = sqrt(p[0] * p[0] + p[1] * p[1] + p[2] * p[2]);
1523    p[3] = (p[0] * a[0] + p[1] * a[1] + p[2] * a[2]) / l;
1524
1525    p[0] = p[0] / l;
1526    p[1] = p[1] / l;
1527    p[2] = p[2] / l;
1528 }
1529
1530 static int plane_intersect3( v4f a, v4f b, v4f c, v3f p )
1531 {
1532    f32 const epsilon = 1e-6f;
1533
1534    v3f x;
1535    v3_cross( a, b, x );
1536    f32 d = v3_dot( x, c );
1537
1538    if( (d < epsilon) && (d > -epsilon) ) return 0;
1539
1540    v3f v0, v1, v2;
1541    v3_cross( b, c, v0 );
1542    v3_cross( c, a, v1 );
1543    v3_cross( a, b, v2 );
1544
1545    v3_muls(       v0, a[3], p );
1546    v3_muladds( p, v1, b[3], p );
1547    v3_muladds( p, v2, c[3], p );
1548    v3_divs( p, d, p );
1549
1550    return 1;
1551 }
1552
1553 int plane_intersect2( v4f a, v4f b, v3f p, v3f n )
1554 {
1555    f32 const epsilon = 1e-6f;
1556
1557    v4f c;
1558    v3_cross( a, b, c );
1559    f32 d = v3_length2( c );
1560
1561    if( (d < epsilon) && (d > -epsilon) )
1562       return 0;
1563
1564    v3f v0, v1, vx;
1565    v3_cross( c, b, v0 );
1566    v3_cross( a, c, v1 );
1567
1568    v3_muls( v0, a[3], vx );
1569    v3_muladds( vx, v1, b[3], vx );
1570    v3_divs( vx, d, p );
1571    v3_copy( c, n );
1572
1573    return 1;
1574 }
1575
1576 static int plane_segment( v4f plane, v3f a, v3f b, v3f co )
1577 {
1578    f32 d0 = v3_dot( a, plane ) - plane[3],
1579        d1 = v3_dot( b, plane ) - plane[3];
1580
1581    if( d0*d1 < 0.0f )
1582    {
1583       f32 tot = 1.0f/( fabsf(d0)+fabsf(d1) );
1584
1585       v3_muls( a, fabsf(d1) * tot, co );
1586       v3_muladds( co, b, fabsf(d0) * tot, co );
1587       return 1;
1588    }
1589
1590    return 0;
1591 }
1592
1593 static inline f64 plane_polarity( f64 p[4], f64 a[3] )
1594 {
1595    return
1596    (a[0] * p[0] + a[1] * p[1] + a[2] * p[2])
1597    -(p[0]*p[3] * p[0] + p[1]*p[3] * p[1] + p[2]*p[3] * p[2])
1598    ;
1599 }
1600
1601 static f32 ray_plane( v4f plane, v3f co, v3f dir ){
1602    f32 d = v3_dot( plane, dir );
1603    if( fabsf(d) > 1e-6f ){
1604       v3f v0;
1605       v3_muls( plane, plane[3], v0 );
1606       v3_sub( v0, co, v0 );
1607       return v3_dot( v0, plane ) / d;
1608    }
1609    else return INFINITY;
1610 }
1611
1612 /*
1613  * -----------------------------------------------------------------------------
1614  * Section 5.c            Closest point functions
1615  * -----------------------------------------------------------------------------
1616  */
1617
1618 /*
1619  * These closest point tests were learned from Real-Time Collision Detection by
1620  * Christer Ericson
1621  */
1622 static f32 closest_segment_segment( v3f p1, v3f q1, v3f p2, v3f q2,
1623    f32 *s, f32 *t, v3f c1, v3f c2)
1624 {
1625    v3f d1,d2,r;
1626    v3_sub( q1, p1, d1 );
1627    v3_sub( q2, p2, d2 );
1628    v3_sub( p1, p2, r );
1629
1630    f32 a = v3_length2( d1 ),
1631          e = v3_length2( d2 ),
1632          f = v3_dot( d2, r );
1633
1634    const f32 kEpsilon = 0.0001f;
1635
1636    if( a <= kEpsilon && e <= kEpsilon )
1637    {
1638       *s = 0.0f;
1639       *t = 0.0f;
1640       v3_copy( p1, c1 );
1641       v3_copy( p2, c2 );
1642
1643       v3f v0;
1644       v3_sub( c1, c2, v0 );
1645
1646       return v3_length2( v0 );
1647    }
1648
1649    if( a<= kEpsilon )
1650    {
1651       *s = 0.0f;
1652       *t = vg_clampf( f / e, 0.0f, 1.0f );
1653    }
1654    else
1655    {
1656       f32 c = v3_dot( d1, r );
1657       if( e <= kEpsilon )
1658       {
1659          *t = 0.0f;
1660          *s = vg_clampf( -c / a, 0.0f, 1.0f );
1661       }
1662       else
1663       {
1664          f32 b = v3_dot(d1,d2),
1665                d = a*e-b*b;
1666
1667          if( d != 0.0f )
1668          {
1669             *s = vg_clampf((b*f - c*e)/d, 0.0f, 1.0f);
1670          }
1671          else
1672          {
1673             *s = 0.0f;
1674          }
1675
1676          *t = (b*(*s)+f) / e;
1677
1678          if( *t < 0.0f )
1679          {
1680             *t = 0.0f;
1681             *s = vg_clampf( -c / a, 0.0f, 1.0f );
1682          }
1683          else if( *t > 1.0f )
1684          {
1685             *t = 1.0f;
1686             *s = vg_clampf((b-c)/a,0.0f,1.0f);
1687          }
1688       }
1689    }
1690
1691    v3_muladds( p1, d1, *s, c1 );
1692    v3_muladds( p2, d2, *t, c2 );
1693
1694    v3f v0;
1695    v3_sub( c1, c2, v0 );
1696    return v3_length2( v0 );
1697 }
1698
1699 static int point_inside_aabb( boxf box, v3f point )
1700 {
1701    if((point[0]<=box[1][0]) && (point[1]<=box[1][1]) && (point[2]<=box[1][2]) &&
1702       (point[0]>=box[0][0]) && (point[1]>=box[0][1]) && (point[2]>=box[0][2]) )
1703       return 1;
1704    else
1705       return 0;
1706 }
1707
1708 static void closest_point_aabb( v3f p, boxf box, v3f dest )
1709 {
1710    v3_maxv( p, box[0], dest );
1711    v3_minv( dest, box[1], dest );
1712 }
1713
1714 static void closest_point_obb( v3f p, boxf box,
1715                                   m4x3f mtx, m4x3f inv_mtx, v3f dest )
1716 {
1717    v3f local;
1718    m4x3_mulv( inv_mtx, p, local );
1719    closest_point_aabb( local, box, local );
1720    m4x3_mulv( mtx, local, dest );
1721 }
1722
1723 static f32 closest_point_segment( v3f a, v3f b, v3f point, v3f dest )
1724 {
1725    v3f v0, v1;
1726    v3_sub( b, a, v0 );
1727    v3_sub( point, a, v1 );
1728
1729    f32 t = v3_dot( v1, v0 ) / v3_length2(v0);
1730    t = vg_clampf(t,0.0f,1.0f);
1731    v3_muladds( a, v0, t, dest );
1732    return t;
1733 }
1734
1735 static void closest_on_triangle( v3f p, v3f tri[3], v3f dest )
1736 {
1737    v3f ab, ac, ap;
1738    f32 d1, d2;
1739
1740    /* Region outside A */
1741    v3_sub( tri[1], tri[0], ab );
1742    v3_sub( tri[2], tri[0], ac );
1743    v3_sub( p, tri[0], ap );
1744
1745    d1 = v3_dot(ab,ap);
1746    d2 = v3_dot(ac,ap);
1747    if( d1 <= 0.0f && d2 <= 0.0f )
1748    {
1749       v3_copy( tri[0], dest );
1750       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1751       return;
1752    }
1753
1754    /* Region outside B */
1755    v3f bp;
1756    f32 d3, d4;
1757
1758    v3_sub( p, tri[1], bp );
1759    d3 = v3_dot( ab, bp );
1760    d4 = v3_dot( ac, bp );
1761
1762    if( d3 >= 0.0f && d4 <= d3 )
1763    {
1764       v3_copy( tri[1], dest );
1765       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1766       return;
1767    }
1768
1769    /* Edge region of AB */
1770    f32 vc = d1*d4 - d3*d2;
1771    if( vc <= 0.0f && d1 >= 0.0f && d3 <= 0.0f )
1772    {
1773       f32 v = d1 / (d1-d3);
1774       v3_muladds( tri[0], ab, v, dest );
1775       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1776       return;
1777    }
1778
1779    /* Region outside C */
1780    v3f cp;
1781    f32 d5, d6;
1782    v3_sub( p, tri[2], cp );
1783    d5 = v3_dot(ab, cp);
1784    d6 = v3_dot(ac, cp);
1785
1786    if( d6 >= 0.0f && d5 <= d6 )
1787    {
1788       v3_copy( tri[2], dest );
1789       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1790       return;
1791    }
1792
1793    /* Region of AC */
1794    f32 vb = d5*d2 - d1*d6;
1795    if( vb <= 0.0f && d2 >= 0.0f && d6 <= 0.0f )
1796    {
1797       f32 w = d2 / (d2-d6);
1798       v3_muladds( tri[0], ac, w, dest );
1799       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1800       return;
1801    }
1802
1803    /* Region of BC */
1804    f32 va = d3*d6 - d5*d4;
1805    if( va <= 0.0f && (d4-d3) >= 0.0f && (d5-d6) >= 0.0f )
1806    {
1807       f32 w = (d4-d3) / ((d4-d3) + (d5-d6));
1808       v3f bc;
1809       v3_sub( tri[2], tri[1], bc );
1810       v3_muladds( tri[1], bc, w, dest );
1811       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1812       return;
1813    }
1814
1815    /* P inside region, Q via barycentric coordinates uvw */
1816    f32 d = 1.0f/(va+vb+vc),
1817          v = vb*d,
1818          w = vc*d;
1819
1820    v3_muladds( tri[0], ab, v, dest );
1821    v3_muladds( dest, ac, w, dest );
1822 }
1823
1824 enum contact_type
1825 {
1826    k_contact_type_default,
1827    k_contact_type_disabled,
1828    k_contact_type_edge
1829 };
1830
1831 static enum contact_type closest_on_triangle_1( v3f p, v3f tri[3], v3f dest )
1832 {
1833    v3f ab, ac, ap;
1834    f32 d1, d2;
1835
1836    /* Region outside A */
1837    v3_sub( tri[1], tri[0], ab );
1838    v3_sub( tri[2], tri[0], ac );
1839    v3_sub( p, tri[0], ap );
1840
1841    d1 = v3_dot(ab,ap);
1842    d2 = v3_dot(ac,ap);
1843    if( d1 <= 0.0f && d2 <= 0.0f )
1844    {
1845       v3_copy( tri[0], dest );
1846       return k_contact_type_default;
1847    }
1848
1849    /* Region outside B */
1850    v3f bp;
1851    f32 d3, d4;
1852
1853    v3_sub( p, tri[1], bp );
1854    d3 = v3_dot( ab, bp );
1855    d4 = v3_dot( ac, bp );
1856
1857    if( d3 >= 0.0f && d4 <= d3 )
1858    {
1859       v3_copy( tri[1], dest );
1860       return k_contact_type_edge;
1861    }
1862
1863    /* Edge region of AB */
1864    f32 vc = d1*d4 - d3*d2;
1865    if( vc <= 0.0f && d1 >= 0.0f && d3 <= 0.0f )
1866    {
1867       f32 v = d1 / (d1-d3);
1868       v3_muladds( tri[0], ab, v, dest );
1869       return k_contact_type_edge;
1870    }
1871
1872    /* Region outside C */
1873    v3f cp;
1874    f32 d5, d6;
1875    v3_sub( p, tri[2], cp );
1876    d5 = v3_dot(ab, cp);
1877    d6 = v3_dot(ac, cp);
1878
1879    if( d6 >= 0.0f && d5 <= d6 )
1880    {
1881       v3_copy( tri[2], dest );
1882       return k_contact_type_edge;
1883    }
1884
1885    /* Region of AC */
1886    f32 vb = d5*d2 - d1*d6;
1887    if( vb <= 0.0f && d2 >= 0.0f && d6 <= 0.0f )
1888    {
1889       f32 w = d2 / (d2-d6);
1890       v3_muladds( tri[0], ac, w, dest );
1891       return k_contact_type_edge;
1892    }
1893
1894    /* Region of BC */
1895    f32 va = d3*d6 - d5*d4;
1896    if( va <= 0.0f && (d4-d3) >= 0.0f && (d5-d6) >= 0.0f )
1897    {
1898       f32 w = (d4-d3) / ((d4-d3) + (d5-d6));
1899       v3f bc;
1900       v3_sub( tri[2], tri[1], bc );
1901       v3_muladds( tri[1], bc, w, dest );
1902       return k_contact_type_edge;
1903    }
1904
1905    /* P inside region, Q via barycentric coordinates uvw */
1906    f32 d = 1.0f/(va+vb+vc),
1907          v = vb*d,
1908          w = vc*d;
1909
1910    v3_muladds( tri[0], ab, v, dest );
1911    v3_muladds( dest, ac, w, dest );
1912
1913    return k_contact_type_default;
1914 }
1915
1916 static void closest_point_elipse( v2f p, v2f e, v2f o )
1917 {
1918    v2f pabs, ei, e2, ve, t;
1919
1920    v2_abs( p, pabs );
1921    v2_div( (v2f){ 1.0f, 1.0f }, e, ei );
1922    v2_mul( e, e, e2 );
1923    v2_mul( ei, (v2f){ e2[0]-e2[1], e2[1]-e2[0] }, ve );
1924
1925    v2_fill( t, 0.70710678118654752f );
1926
1927    for( int i=0; i<3; i++ ){
1928       v2f v, u, ud, w;
1929
1930       v2_mul( ve, t, v );  /* ve*t*t*t */
1931       v2_mul( v, t, v );
1932       v2_mul( v, t, v );
1933
1934       v2_sub( pabs, v, u );
1935       v2_normalize( u );
1936
1937       v2_mul( t, e, ud );
1938       v2_sub( ud, v, ud );
1939
1940       v2_muls( u, v2_length( ud ), u );
1941
1942       v2_add( v, u, w );
1943       v2_mul( w, ei, w );
1944
1945       v2_maxv( (v2f){0.0f,0.0f}, w, t );
1946       v2_normalize( t );
1947    }
1948
1949    v2_mul( t, e, o );
1950    v2_copysign( o, p );
1951 }
1952
1953 /*
1954  * -----------------------------------------------------------------------------
1955  * Section 5.d               Raycasts & Spherecasts
1956  * -----------------------------------------------------------------------------
1957  */
1958
1959 int ray_aabb1( boxf box, v3f co, v3f dir_inv, f32 dist )
1960 {
1961    v3f v0, v1;
1962    f32 tmin, tmax;
1963
1964    v3_sub( box[0], co, v0 );
1965    v3_sub( box[1], co, v1 );
1966
1967    v3_mul( v0, dir_inv, v0 );
1968    v3_mul( v1, dir_inv, v1 );
1969
1970    tmin = vg_minf( v0[0], v1[0] );
1971    tmax = vg_maxf( v0[0], v1[0] );
1972    tmin = vg_maxf( tmin, vg_minf( v0[1], v1[1] ));
1973    tmax = vg_minf( tmax, vg_maxf( v0[1], v1[1] ));
1974    tmin = vg_maxf( tmin, vg_minf( v0[2], v1[2] ));
1975    tmax = vg_minf( tmax, vg_maxf( v0[2], v1[2] ));
1976
1977    return (tmax >= tmin) && (tmin <= dist) && (tmax >= 0.0f);
1978 }
1979
1980 /* Time of intersection with ray vs triangle */
1981 static int ray_tri( v3f tri[3], v3f co,
1982                     v3f dir, f32 *dist )
1983 {
1984    f32 const kEpsilon = 0.00001f;
1985
1986    v3f v0, v1, h, s, q, n;
1987    f32 a,f,u,v,t;
1988
1989    f32 *pa = tri[0],
1990          *pb = tri[1],
1991          *pc = tri[2];
1992
1993    v3_sub( pb, pa, v0 );
1994    v3_sub( pc, pa, v1 );
1995    v3_cross( dir, v1, h );
1996    v3_cross( v0, v1, n );
1997
1998    if( v3_dot( n, dir ) > 0.0f ) /* Backface culling */
1999       return 0;
2000
2001    /* Parralel */
2002    a = v3_dot( v0, h );
2003
2004    if( a > -kEpsilon && a < kEpsilon )
2005       return 0;
2006
2007    f = 1.0f/a;
2008    v3_sub( co, pa, s );
2009
2010    u = f * v3_dot(s, h);
2011    if( u < 0.0f || u > 1.0f )
2012       return 0;
2013
2014    v3_cross( s, v0, q );
2015    v = f * v3_dot( dir, q );
2016    if( v < 0.0f || u+v > 1.0f )
2017       return 0;
2018
2019    t = f * v3_dot(v1, q);
2020    if( t > kEpsilon )
2021    {
2022       *dist = t;
2023       return 1;
2024    }
2025    else return 0;
2026 }
2027
2028 /* time of intersection with ray vs sphere */
2029 static int ray_sphere( v3f c, f32 r,
2030                        v3f co, v3f dir, f32 *t )
2031 {
2032    v3f m;
2033    v3_sub( co, c, m );
2034
2035    f32 b  = v3_dot( m, dir ),
2036          c1 = v3_dot( m, m ) - r*r;
2037
2038    /* Exit if r’s origin outside s (c > 0) and r pointing away from s (b > 0) */
2039    if( c1 > 0.0f && b > 0.0f )
2040       return 0;
2041
2042    f32 discr = b*b - c1;
2043
2044    /* A negative discriminant corresponds to ray missing sphere */
2045    if( discr < 0.0f )
2046       return 0;
2047
2048    /*
2049     * Ray now found to intersect sphere, compute smallest t value of
2050     * intersection
2051     */
2052    *t = -b - sqrtf( discr );
2053
2054    /* If t is negative, ray started inside sphere so clamp t to zero */
2055    if( *t < 0.0f )
2056       *t = 0.0f;
2057
2058    return 1;
2059 }
2060
2061 /*
2062  * time of intersection of ray vs cylinder
2063  * The cylinder does not have caps but is finite
2064  *
2065  * Heavily adapted from regular segment vs cylinder from:
2066  *    Real-Time Collision Detection
2067  */
2068 static int ray_uncapped_finite_cylinder( v3f q, v3f p, f32 r,
2069                                          v3f co, v3f dir, f32 *t )
2070 {
2071    v3f d, m, n, sb;
2072    v3_muladds( co, dir, 1.0f, sb );
2073
2074    v3_sub( q, p, d );
2075    v3_sub( co, p, m );
2076    v3_sub( sb, co, n );
2077
2078    f32 md = v3_dot( m, d ),
2079          nd = v3_dot( n, d ),
2080          dd = v3_dot( d, d ),
2081          nn = v3_dot( n, n ),
2082          mn = v3_dot( m, n ),
2083          a  = dd*nn - nd*nd,
2084          k  = v3_dot( m, m ) - r*r,
2085          c  = dd*k - md*md;
2086
2087    if( fabsf(a) < 0.00001f )
2088    {
2089       /* Segment runs parallel to cylinder axis */
2090       return 0;
2091    }
2092
2093    f32 b     = dd*mn - nd*md,
2094          discr = b*b - a*c;
2095
2096    if( discr < 0.0f )
2097       return 0; /* No real roots; no intersection */
2098
2099    *t = (-b - sqrtf(discr)) / a;
2100    if( *t < 0.0f )
2101       return 0; /* Intersection behind ray */
2102
2103    /* Check within cylinder segment */
2104    if( md + (*t)*nd < 0.0f )
2105       return 0;
2106
2107    if( md + (*t)*nd > dd )
2108       return 0;
2109
2110    /* Segment intersects cylinder between the endcaps; t is correct */
2111    return 1;
2112 }
2113
2114 /*
2115  * Time of intersection of sphere and triangle. Origin must be outside the
2116  * colliding area. This is a fairly long procedure.
2117  */
2118 static int spherecast_triangle( v3f tri[3],
2119                                 v3f co, v3f dir, f32 r, f32 *t, v3f n )
2120 {
2121    v3f sum[3];
2122    v3f v0, v1;
2123
2124    v3_sub( tri[1], tri[0], v0 );
2125    v3_sub( tri[2], tri[0], v1 );
2126    v3_cross( v0, v1, n );
2127    v3_normalize( n );
2128    v3_muladds( tri[0], n, r, sum[0] );
2129    v3_muladds( tri[1], n, r, sum[1] );
2130    v3_muladds( tri[2], n, r, sum[2] );
2131
2132    int hit = 0;
2133    f32 t_min = INFINITY,
2134          t1;
2135
2136    if( ray_tri( sum, co, dir, &t1 ) ){
2137       t_min = vg_minf( t_min, t1 );
2138       hit = 1;
2139    }
2140
2141    /*
2142     * Currently disabled; ray_sphere requires |d| = 1. it is not very important.
2143     */
2144 #if 0
2145    for( int i=0; i<3; i++ ){
2146       if( ray_sphere( tri[i], r, co, dir, &t1 ) ){
2147          t_min = vg_minf( t_min, t1 );
2148          hit = 1;
2149       }
2150    }
2151 #endif
2152
2153    for( int i=0; i<3; i++ ){
2154       int i0 =  i,
2155           i1 = (i+1)%3;
2156
2157       if( ray_uncapped_finite_cylinder( tri[i0], tri[i1], r, co, dir, &t1 ) ){
2158          if( t1 < t_min ){
2159             t_min = t1;
2160
2161             v3f co1, ct, cx;
2162             v3_add( dir, co, co1 );
2163             v3_lerp( co, co1, t_min, ct );
2164
2165             closest_point_segment( tri[i0], tri[i1], ct, cx );
2166             v3_sub( ct, cx, n );
2167             v3_normalize( n );
2168          }
2169
2170          hit = 1;
2171       }
2172    }
2173
2174    *t = t_min;
2175    return hit;
2176 }
2177
2178 /*
2179  * -----------------------------------------------------------------------------
2180  * Section 5.e                       Curves
2181  * -----------------------------------------------------------------------------
2182  */
2183
2184 static void eval_bezier_time( v3f p0, v3f p1, v3f h0, v3f h1, f32 t, v3f p )
2185 {
2186    f32 tt = t*t,
2187          ttt = tt*t;
2188
2189    v3_muls( p1, ttt, p );
2190    v3_muladds( p, h1, 3.0f*tt  -3.0f*ttt, p );
2191    v3_muladds( p, h0, 3.0f*ttt -6.0f*tt  +3.0f*t, p );
2192    v3_muladds( p, p0, 3.0f*tt  -ttt -3.0f*t +1.0f, p );
2193 }
2194
2195 static void eval_bezier3( v3f p0, v3f p1, v3f p2, f32 t, v3f p )
2196 {
2197    f32 u = 1.0f-t;
2198
2199    v3_muls( p0, u*u, p );
2200    v3_muladds( p, p1, 2.0f*u*t, p );
2201    v3_muladds( p, p2, t*t, p );
2202 }
2203
2204 /*
2205  * -----------------------------------------------------------------------------
2206  * Section 5.f                      Volumes
2207  * -----------------------------------------------------------------------------
2208  */
2209
2210 static float vg_sphere_volume( float radius ){
2211    float r3 = radius*radius*radius;
2212    return (4.0f/3.0f) * VG_PIf * r3;
2213 }
2214
2215 /*
2216  * -----------------------------------------------------------------------------
2217  * Section 6.a            PSRNG and some distributions
2218  * -----------------------------------------------------------------------------
2219  */
2220
2221 /* An implementation of the MT19937 Algorithm for the Mersenne Twister
2222  * by Evan Sultanik.  Based upon the pseudocode in: M. Matsumoto and
2223  * T. Nishimura, "Mersenne Twister: A 623-dimensionally
2224  * equidistributed uniform pseudorandom number generator," ACM
2225  * Transactions on Modeling and Computer Simulation Vol. 8, No. 1,
2226  * January pp.3-30 1998.
2227  *
2228  * http://www.sultanik.com/Mersenne_twister
2229  * https://github.com/ESultanik/mtwister/blob/master/mtwister.c
2230  */
2231
2232 #define MT_UPPER_MASK         0x80000000
2233 #define MT_LOWER_MASK         0x7fffffff
2234 #define MT_TEMPERING_MASK_B   0x9d2c5680
2235 #define MT_TEMPERING_MASK_C   0xefc60000
2236
2237 #define MT_STATE_VECTOR_LENGTH 624
2238
2239 /* changes to STATE_VECTOR_LENGTH also require changes to this */
2240 #define MT_STATE_VECTOR_M      397
2241
2242 struct {
2243   u32 mt[MT_STATE_VECTOR_LENGTH];
2244   i32 index;
2245 }
2246 static vg_rand;
2247
2248 static void vg_rand_seed( unsigned long seed )
2249 {
2250    /* set initial seeds to mt[STATE_VECTOR_LENGTH] using the generator
2251     * from Line 25 of Table 1 in: Donald Knuth, "The Art of Computer
2252     * Programming," Vol. 2 (2nd Ed.) pp.102.
2253     */
2254    vg_rand.mt[0] = seed & 0xffffffff;
2255    for( vg_rand.index=1; vg_rand.index<MT_STATE_VECTOR_LENGTH; vg_rand.index++){
2256       vg_rand.mt[vg_rand.index] =
2257          (6069 * vg_rand.mt[vg_rand.index-1]) & 0xffffffff;
2258    }
2259 }
2260
2261 /*
2262  * Generates a pseudo-randomly generated long.
2263  */
2264 static u32 vg_randu32(void)
2265 {
2266    u32 y;
2267    /* mag[x] = x * 0x9908b0df for x = 0,1 */
2268    static u32 mag[2] = {0x0, 0x9908b0df};
2269    if( vg_rand.index >= MT_STATE_VECTOR_LENGTH || vg_rand.index < 0 ){
2270       /* generate STATE_VECTOR_LENGTH words at a time */
2271       int kk;
2272       if( vg_rand.index >= MT_STATE_VECTOR_LENGTH+1 || vg_rand.index < 0 ){
2273          vg_rand_seed( 4357 );
2274       }
2275       for( kk=0; kk<MT_STATE_VECTOR_LENGTH-MT_STATE_VECTOR_M; kk++ ){
2276          y = (vg_rand.mt[kk] & MT_UPPER_MASK) |
2277              (vg_rand.mt[kk+1] & MT_LOWER_MASK);
2278          vg_rand.mt[kk] = vg_rand.mt[kk+MT_STATE_VECTOR_M] ^
2279                            (y >> 1) ^ mag[y & 0x1];
2280       }
2281       for( ; kk<MT_STATE_VECTOR_LENGTH-1; kk++ ){
2282          y = (vg_rand.mt[kk] & MT_UPPER_MASK) |
2283              (vg_rand.mt[kk+1] & MT_LOWER_MASK);
2284          vg_rand.mt[kk] =
2285             vg_rand.mt[ kk+(MT_STATE_VECTOR_M-MT_STATE_VECTOR_LENGTH)] ^
2286                         (y >> 1) ^ mag[y & 0x1];
2287       }
2288       y = (vg_rand.mt[MT_STATE_VECTOR_LENGTH-1] & MT_UPPER_MASK) |
2289           (vg_rand.mt[0] & MT_LOWER_MASK);
2290       vg_rand.mt[MT_STATE_VECTOR_LENGTH-1] =
2291          vg_rand.mt[MT_STATE_VECTOR_M-1] ^ (y >> 1) ^ mag[y & 0x1];
2292       vg_rand.index = 0;
2293    }
2294    y = vg_rand.mt[vg_rand.index++];
2295    y ^= (y >> 11);
2296    y ^= (y << 7) & MT_TEMPERING_MASK_B;
2297    y ^= (y << 15) & MT_TEMPERING_MASK_C;
2298    y ^= (y >> 18);
2299    return y;
2300 }
2301
2302 /*
2303  * Generates a pseudo-randomly generated f64 in the range [0..1].
2304  */
2305 static inline f64 vg_randf64(void)
2306 {
2307    return (f64)vg_randu32()/(f64)0xffffffff;
2308 }
2309
2310 static inline f64 vg_randf64_range( f64 min, f64 max )
2311 {
2312    return vg_lerp( min, max, (f64)vg_randf64() );
2313 }
2314
2315 static inline void vg_rand_dir( v3f dir )
2316 {
2317    dir[0] = vg_randf64();
2318    dir[1] = vg_randf64();
2319    dir[2] = vg_randf64();
2320
2321    v3_muls( dir, 2.0f, dir );
2322    v3_sub( dir, (v3f){1.0f,1.0f,1.0f}, dir );
2323
2324    v3_normalize( dir );
2325 }
2326
2327 static inline void vg_rand_sphere( v3f co )
2328 {
2329    vg_rand_dir(co);
2330    v3_muls( co, cbrtf( vg_randf64() ), co );
2331 }
2332
2333 #endif /* VG_M_H */