vg_m.h

   1 /* Copyright (C) 2021-2023 Harry Godden (hgn) - All Rights Reserved
   2  *
   3  *  0. Misc
   4  *  1. Scalar operations
   5  *  2. Vectors
   6  *    2.a 2D Vectors
   7  *    2.b 3D Vectors
   8  *    2.c 4D Vectors
   9  *  3. Quaternions
  10  *  4. Matrices
  11  *    4.a 2x2 matrices
  12  *    4.b 3x3 matrices
  13  *    4.c 4x3 matrices
  14  *    4.d 4x4 matrices
  15  *  5. Geometry
  16  *    5.a Boxes
  17  *    5.b Planes
  18  *    5.c Closest points
  19  *    5.d Raycast & Spherecasts
  20  *    5.e Curves
  21  *    5.f Volumes
  22  *  6. Statistics
  23  *    6.a Random numbers
  24  **/
  25
  26 #ifndef VG_M_H
  27 #define VG_M_H
  28
  29 #include "vg_platform.h"
  30 #include <math.h>
  31 #include <stdlib.h>
  32
  33 #define VG_PIf  3.14159265358979323846264338327950288f
  34 #define VG_TAUf 6.28318530717958647692528676655900576f
  35
  36 /*
  37  * -----------------------------------------------------------------------------
  38  * Section 0.                    Misc Operations
  39  * -----------------------------------------------------------------------------
  40  */
  41
  42 /* get the f32 as the raw bits in a u32 without converting */
  43 static u32 vg_ftu32( f32 a )
  44 {
  45    u32 *ptr = (u32 *)(&a);
  46    return *ptr;
  47 }
  48
  49 /* check if f32 is infinite */
  50 static int vg_isinff( f32 a )
  51 {
  52    return ((vg_ftu32(a)) & 0x7FFFFFFFU) == 0x7F800000U;
  53 }
  54
  55 /* check if f32 is not a number */
  56 static int vg_isnanf( f32 a )
  57 {
  58    return !vg_isinff(a) && ((vg_ftu32(a)) & 0x7F800000U) == 0x7F800000U;
  59 }
  60
  61 /* check if f32 is a number and is not infinite */
  62 static int vg_validf( f32 a )
  63 {
  64    return ((vg_ftu32(a)) & 0x7F800000U) != 0x7F800000U;
  65 }
  66
  67 static int v3_valid( v3f a ){
  68    for( u32 i=0; i<3; i++ )
  69       if( !vg_validf(a[i]) ) return 0;
  70    return 1;
  71 }
  72
  73 /*
  74  * -----------------------------------------------------------------------------
  75  * Section 1.                   Scalar Operations
  76  * -----------------------------------------------------------------------------
  77  */
  78
  79 static inline f32 vg_minf( f32 a, f32 b ){ return a < b? a: b; }
  80 static inline f32 vg_maxf( f32 a, f32 b ){ return a > b? a: b; }
  81
  82 static inline int vg_min( int a, int b ){ return a < b? a: b; }
  83 static inline int vg_max( int a, int b ){ return a > b? a: b; }
  84
  85 static inline f32 vg_clampf( f32 a, f32 min, f32 max )
  86 {
  87    return vg_minf( max, vg_maxf( a, min ) );
  88 }
  89
  90 static inline f32 vg_signf( f32 a )
  91 {
  92    return a < 0.0f? -1.0f: 1.0f;
  93 }
  94
  95 static inline f32 vg_fractf( f32 a )
  96 {
  97    return a - floorf( a );
  98 }
  99
 100 static f32 vg_cfrictf( f32 velocity, f32 F )
 101 {
 102    return -vg_signf(velocity) * vg_minf( F, fabsf(velocity) );
 103 }
 104
 105 static inline f32 vg_rad( f32 deg )
 106 {
 107    return deg * VG_PIf / 180.0f;
 108 }
 109
 110 /* angle to reach b from a */
 111 static f32 vg_angle_diff( f32 a, f32 b ){
 112    f32 d = fmod(b,VG_TAUf)-fmodf(a,VG_TAUf);
 113    if( fabsf(d) > VG_PIf )
 114       d = -vg_signf(d) * (VG_TAUf - fabsf(d));
 115
 116    return d;
 117 }
 118
 119 /*
 120  * quantize float to bit count
 121  */
 122 static u32 vg_quantf( f32 a, u32 bits, f32 min, f32 max ){
 123    u32 mask = (0x1 << bits) - 1;
 124    return vg_clampf((a - min) * ((f32)mask/(max-min)), 0.0f, mask );
 125 }
 126
 127 /*
 128  * un-quantize discreet to float
 129  */
 130 static f32 vg_dequantf( u32 q, u32 bits, f32 min, f32 max ){
 131    u32 mask = (0x1 << bits) - 1;
 132    return min + (f32)q * ((max-min) / (f32)mask);
 133 }
 134
 135 /* https://iquilezles.org/articles/functions/
 136  *
 137  * Use k to control the stretching of the function. Its maximum, which is 1,
 138  * happens at exactly x = 1/k.
 139  */
 140 static f32 vg_exp_impulse( f32 x, f32 k ){
 141     f32 h = k*x;
 142     return h*expf(1.0f-h);
 143 }
 144
 145 /*
 146  * -----------------------------------------------------------------------------
 147  * Section 2.a                   2D Vectors
 148  * -----------------------------------------------------------------------------
 149  */
 150
 151 static inline void v2_copy( v2f a, v2f d )
 152 {
 153    d[0] = a[0]; d[1] = a[1];
 154 }
 155
 156 static inline void v2_zero( v2f a )
 157 {
 158    a[0] = 0.f; a[1] = 0.f;
 159 }
 160
 161 static inline void v2_add( v2f a, v2f b, v2f d )
 162 {
 163    d[0] = a[0]+b[0]; d[1] = a[1]+b[1];
 164 }
 165
 166 static inline void v2_sub( v2f a, v2f b, v2f d )
 167 {
 168    d[0] = a[0]-b[0]; d[1] = a[1]-b[1];
 169 }
 170
 171 static inline void v2_minv( v2f a, v2f b, v2f dest )
 172 {
 173    dest[0] = vg_minf(a[0], b[0]);
 174    dest[1] = vg_minf(a[1], b[1]);
 175 }
 176
 177 static inline void v2_maxv( v2f a, v2f b, v2f dest )
 178 {
 179    dest[0] = vg_maxf(a[0], b[0]);
 180    dest[1] = vg_maxf(a[1], b[1]);
 181 }
 182
 183 static inline f32 v2_dot( v2f a, v2f b )
 184 {
 185    return a[0] * b[0] + a[1] * b[1];
 186 }
 187
 188 static inline f32 v2_cross( v2f a, v2f b )
 189 {
 190    return a[0]*b[1] - a[1]*b[0];
 191 }
 192
 193 static inline void v2_abs( v2f a, v2f d )
 194 {
 195    d[0] = fabsf( a[0] );
 196    d[1] = fabsf( a[1] );
 197 }
 198
 199 static inline void v2_muls( v2f a, f32 s, v2f d )
 200 {
 201    d[0] = a[0]*s; d[1] = a[1]*s;
 202 }
 203
 204 static inline void v2_divs( v2f a, f32 s, v2f d )
 205 {
 206    d[0] = a[0]/s; d[1] = a[1]/s;
 207 }
 208
 209 static inline void v2_mul( v2f a, v2f b, v2f d )
 210 {
 211    d[0] = a[0]*b[0];
 212    d[1] = a[1]*b[1];
 213 }
 214
 215 static inline void v2_div( v2f a, v2f b, v2f d )
 216 {
 217    d[0] = a[0]/b[0]; d[1] = a[1]/b[1];
 218 }
 219
 220 static inline void v2_muladd( v2f a, v2f b, v2f s, v2f d )
 221 {
 222    d[0] = a[0]+b[0]*s[0];
 223    d[1] = a[1]+b[1]*s[1];
 224 }
 225
 226 static inline void v2_muladds( v2f a, v2f b, f32 s, v2f d )
 227 {
 228    d[0] = a[0]+b[0]*s;
 229    d[1] = a[1]+b[1]*s;
 230 }
 231
 232 static inline f32 v2_length2( v2f a )
 233 {
 234    return a[0]*a[0] + a[1]*a[1];
 235 }
 236
 237 static inline f32 v2_length( v2f a )
 238 {
 239    return sqrtf( v2_length2( a ) );
 240 }
 241
 242 static inline f32 v2_dist2( v2f a, v2f b )
 243 {
 244    v2f delta;
 245    v2_sub( a, b, delta );
 246    return v2_length2( delta );
 247 }
 248
 249 static inline f32 v2_dist( v2f a, v2f b )
 250 {
 251    return sqrtf( v2_dist2( a, b ) );
 252 }
 253
 254 static inline void v2_lerp( v2f a, v2f b, f32 t, v2f d )
 255 {
 256    d[0] = a[0] + t*(b[0]-a[0]);
 257    d[1] = a[1] + t*(b[1]-a[1]);
 258 }
 259
 260 static inline void v2_normalize( v2f a )
 261 {
 262    v2_muls( a, 1.0f / v2_length( a ), a );
 263 }
 264
 265 static void v2_normalize_clamp( v2f a )
 266 {
 267    f32 l2 = v2_length2( a );
 268    if( l2 > 1.0f )
 269       v2_muls( a, 1.0f/sqrtf(l2), a );
 270 }
 271
 272 static inline void v2_floor( v2f a, v2f b )
 273 {
 274    b[0] = floorf( a[0] );
 275    b[1] = floorf( a[1] );
 276 }
 277
 278 static inline void v2_fill( v2f a, f32 v )
 279 {
 280    a[0] = v;
 281    a[1] = v;
 282 }
 283
 284 static inline void v2_copysign( v2f a, v2f b )
 285 {
 286    a[0] = copysignf( a[0], b[0] );
 287    a[1] = copysignf( a[1], b[1] );
 288 }
 289
 290 /* integer variants
 291  * ---------------- */
 292
 293 static inline void v2i_copy( v2i a, v2i b )
 294 {
 295    b[0] = a[0]; b[1] = a[1];
 296 }
 297
 298 static inline int v2i_eq( v2i a, v2i b )
 299 {
 300    return ((a[0] == b[0]) && (a[1] == b[1]));
 301 }
 302
 303 static inline void v2i_add( v2i a, v2i b, v2i d )
 304 {
 305    d[0] = a[0]+b[0]; d[1] = a[1]+b[1];
 306 }
 307
 308 static inline void v2i_sub( v2i a, v2i b, v2i d )
 309 {
 310    d[0] = a[0]-b[0]; d[1] = a[1]-b[1];
 311 }
 312
 313 /*
 314  * -----------------------------------------------------------------------------
 315  * Section 2.b                   3D Vectors
 316  * -----------------------------------------------------------------------------
 317  */
 318
 319 static inline void v3_copy( v3f a, v3f b )
 320 {
 321    b[0] = a[0]; b[1] = a[1]; b[2] = a[2];
 322 }
 323
 324 static inline void v3_zero( v3f a )
 325 {
 326    a[0] = 0.f; a[1] = 0.f; a[2] = 0.f;
 327 }
 328
 329 static inline void v3_add( v3f a, v3f b, v3f d )
 330 {
 331    d[0] = a[0]+b[0]; d[1] = a[1]+b[1]; d[2] = a[2]+b[2];
 332 }
 333
 334 static inline void v3i_add( v3i a, v3i b, v3i d )
 335 {
 336    d[0] = a[0]+b[0]; d[1] = a[1]+b[1]; d[2] = a[2]+b[2];
 337 }
 338
 339 static inline void v3_sub( v3f a, v3f b, v3f d )
 340 {
 341    d[0] = a[0]-b[0]; d[1] = a[1]-b[1]; d[2] = a[2]-b[2];
 342 }
 343
 344 static inline void v3i_sub( v3i a, v3i b, v3i d )
 345 {
 346    d[0] = a[0]-b[0]; d[1] = a[1]-b[1]; d[2] = a[2]-b[2];
 347 }
 348
 349 static inline void v3_mul( v3f a, v3f b, v3f d )
 350 {
 351    d[0] = a[0]*b[0]; d[1] = a[1]*b[1]; d[2] = a[2]*b[2];
 352 }
 353
 354 static inline void v3_div( v3f a, v3f b, v3f d )
 355 {
 356    d[0] = b[0]!=0.0f? a[0]/b[0]: INFINITY;
 357    d[1] = b[1]!=0.0f? a[1]/b[1]: INFINITY;
 358    d[2] = b[2]!=0.0f? a[2]/b[2]: INFINITY;
 359 }
 360
 361 static inline void v3_muls( v3f a, f32 s, v3f d )
 362 {
 363    d[0] = a[0]*s; d[1] = a[1]*s; d[2] = a[2]*s;
 364 }
 365
 366 static inline void v3_fill( v3f a, f32 v )
 367 {
 368    a[0] = v;
 369    a[1] = v;
 370    a[2] = v;
 371 }
 372
 373 static inline void v3_divs( v3f a, f32 s, v3f d )
 374 {
 375    if( s == 0.0f )
 376       v3_fill( d, INFINITY );
 377    else
 378    {
 379       d[0] = a[0]/s;
 380       d[1] = a[1]/s;
 381       d[2] = a[2]/s;
 382    }
 383 }
 384
 385 static inline void v3_muladds( v3f a, v3f b, f32 s, v3f d )
 386 {
 387    d[0] = a[0]+b[0]*s; d[1] = a[1]+b[1]*s; d[2] = a[2]+b[2]*s;
 388 }
 389
 390 static inline void v3_muladd( v2f a, v2f b, v2f s, v2f d )
 391 {
 392    d[0] = a[0]+b[0]*s[0];
 393    d[1] = a[1]+b[1]*s[1];
 394    d[2] = a[2]+b[2]*s[2];
 395 }
 396
 397 static inline f32 v3_dot( v3f a, v3f b )
 398 {
 399    return a[0] * b[0] + a[1] * b[1] + a[2] * b[2];
 400 }
 401
 402 static inline void v3_cross( v3f a, v3f b, v3f dest )
 403 {
 404    v3f d;
 405    d[0] = a[1]*b[2] - a[2]*b[1];
 406    d[1] = a[2]*b[0] - a[0]*b[2];
 407    d[2] = a[0]*b[1] - a[1]*b[0];
 408    v3_copy( d, dest );
 409 }
 410
 411 static inline f32 v3_length2( v3f a )
 412 {
 413    return v3_dot( a, a );
 414 }
 415
 416 static inline f32 v3_length( v3f a )
 417 {
 418    return sqrtf( v3_length2( a ) );
 419 }
 420
 421 static inline f32 v3_dist2( v3f a, v3f b )
 422 {
 423    v3f delta;
 424    v3_sub( a, b, delta );
 425    return v3_length2( delta );
 426 }
 427
 428 static inline f32 v3_dist( v3f a, v3f b )
 429 {
 430    return sqrtf( v3_dist2( a, b ) );
 431 }
 432
 433 static inline void v3_normalize( v3f a )
 434 {
 435    v3_muls( a, 1.f / v3_length( a ), a );
 436 }
 437
 438 static inline f32 vg_lerpf( f32 a, f32 b, f32 t ){
 439    return a + t*(b-a);
 440 }
 441
 442 static inline f64 vg_lerp( f64 a, f64 b, f64 t )
 443 {
 444    return a + t*(b-a);
 445 }
 446
 447 static inline void vg_slewf( f32 *a, f32 b, f32 speed ){
 448    f32 d = vg_signf( b-*a ),
 449        c = *a + d*speed;
 450    *a = vg_minf( b*d, c*d ) * d;
 451 }
 452
 453 static inline f32 vg_smoothstepf( f32 x ){
 454    return x*x*(3.0f - 2.0f*x);
 455 }
 456
 457
 458 /* correctly lerp around circular period -pi -> pi */
 459 static f32 vg_alerpf( f32 a, f32 b, f32 t )
 460 {
 461    f32 d = fmodf( b-a, VG_TAUf ),
 462          s = fmodf( 2.0f*d, VG_TAUf ) - d;
 463    return a + s*t;
 464 }
 465
 466 static inline void v3_lerp( v3f a, v3f b, f32 t, v3f d )
 467 {
 468    d[0] = a[0] + t*(b[0]-a[0]);
 469    d[1] = a[1] + t*(b[1]-a[1]);
 470    d[2] = a[2] + t*(b[2]-a[2]);
 471 }
 472
 473 static inline void v3_minv( v3f a, v3f b, v3f dest )
 474 {
 475    dest[0] = vg_minf(a[0], b[0]);
 476    dest[1] = vg_minf(a[1], b[1]);
 477    dest[2] = vg_minf(a[2], b[2]);
 478 }
 479
 480 static inline void v3_maxv( v3f a, v3f b, v3f dest )
 481 {
 482    dest[0] = vg_maxf(a[0], b[0]);
 483    dest[1] = vg_maxf(a[1], b[1]);
 484    dest[2] = vg_maxf(a[2], b[2]);
 485 }
 486
 487 static inline f32 v3_minf( v3f a )
 488 {
 489    return vg_minf( vg_minf( a[0], a[1] ), a[2] );
 490 }
 491
 492 static inline f32 v3_maxf( v3f a )
 493 {
 494    return vg_maxf( vg_maxf( a[0], a[1] ), a[2] );
 495 }
 496
 497 static inline void v3_floor( v3f a, v3f b )
 498 {
 499    b[0] = floorf( a[0] );
 500    b[1] = floorf( a[1] );
 501    b[2] = floorf( a[2] );
 502 }
 503
 504 static inline void v3_ceil( v3f a, v3f b )
 505 {
 506    b[0] = ceilf( a[0] );
 507    b[1] = ceilf( a[1] );
 508    b[2] = ceilf( a[2] );
 509 }
 510
 511 static inline void v3_negate( v3f a, v3f b )
 512 {
 513    b[0] = -a[0];
 514    b[1] = -a[1];
 515    b[2] = -a[2];
 516 }
 517
 518 static inline void v3_rotate( v3f v, f32 angle, v3f axis, v3f d )
 519 {
 520   v3f v1, v2, k;
 521   f32 c, s;
 522
 523   c = cosf( angle );
 524   s = sinf( angle );
 525
 526   v3_copy( axis, k );
 527   v3_normalize( k );
 528   v3_muls( v, c, v1 );
 529   v3_cross( k, v, v2 );
 530   v3_muls( v2, s, v2 );
 531   v3_add( v1, v2, v1 );
 532   v3_muls( k, v3_dot(k, v) * (1.0f - c), v2);
 533   v3_add( v1, v2, d );
 534 }
 535
 536 static void v3_tangent_basis( v3f n, v3f tx, v3f ty ){
 537    /* Compute tangent basis (box2d) */
 538    if( fabsf( n[0] ) >= 0.57735027f ){
 539       tx[0] =  n[1];
 540       tx[1] = -n[0];
 541       tx[2] =  0.0f;
 542    }
 543    else{
 544       tx[0] =  0.0f;
 545       tx[1] =  n[2];
 546       tx[2] = -n[1];
 547    }
 548
 549    v3_normalize( tx );
 550    v3_cross( n, tx, ty );
 551 }
 552
 553 /*
 554  * Compute yaw and pitch based of a normalized vector representing forward
 555  * forward: -z
 556  * result -> (YAW,PITCH,0.0)
 557  */
 558 static void v3_angles( v3f v, v3f out_angles ){
 559    float yaw = atan2f( v[0], -v[2] ),
 560        pitch = atan2f(
 561                    -v[1],
 562                    sqrtf(
 563                      v[0]*v[0] + v[2]*v[2]
 564                    )
 565                );
 566
 567    out_angles[0] = yaw;
 568    out_angles[1] = pitch;
 569    out_angles[2] = 0.0f;
 570 }
 571
 572 /*
 573  * Compute the forward vector from (YAW,PITCH,ROLL)
 574  * forward: -z
 575  */
 576 static void v3_angles_vector( v3f angles, v3f out_v ){
 577    out_v[0] =  sinf( angles[0] ) * cosf( angles[1] );
 578    out_v[1] = -sinf( angles[1] );
 579    out_v[2] = -cosf( angles[0] ) * cosf( angles[1] );
 580 }
 581
 582 /*
 583  * -----------------------------------------------------------------------------
 584  * Section 2.c                   4D Vectors
 585  * -----------------------------------------------------------------------------
 586  */
 587
 588 static inline void v4_copy( v4f a, v4f b )
 589 {
 590    b[0] = a[0]; b[1] = a[1]; b[2] = a[2]; b[3] = a[3];
 591 }
 592
 593 static inline void v4_add( v4f a, v4f b, v4f d )
 594 {
 595    d[0] = a[0]+b[0];
 596    d[1] = a[1]+b[1];
 597    d[2] = a[2]+b[2];
 598    d[3] = a[3]+b[3];
 599 }
 600
 601 static inline void v4_zero( v4f a )
 602 {
 603    a[0] = 0.f; a[1] = 0.f; a[2] = 0.f; a[3] = 0.f;
 604 }
 605
 606 static inline void v4_muls( v4f a, f32 s, v4f d )
 607 {
 608    d[0] = a[0]*s;
 609    d[1] = a[1]*s;
 610    d[2] = a[2]*s;
 611    d[3] = a[3]*s;
 612 }
 613
 614 static inline void v4_muladds( v4f a, v4f b, f32 s, v4f d )
 615 {
 616    d[0] = a[0]+b[0]*s;
 617    d[1] = a[1]+b[1]*s;
 618    d[2] = a[2]+b[2]*s;
 619    d[3] = a[3]+b[3]*s;
 620 }
 621
 622 static inline void v4_lerp( v4f a, v4f b, f32 t, v4f d )
 623 {
 624    d[0] = a[0] + t*(b[0]-a[0]);
 625    d[1] = a[1] + t*(b[1]-a[1]);
 626    d[2] = a[2] + t*(b[2]-a[2]);
 627    d[3] = a[3] + t*(b[3]-a[3]);
 628 }
 629
 630 static inline f32 v4_dot( v4f a, v4f b )
 631 {
 632    return a[0]*b[0] + a[1]*b[1] + a[2]*b[2] + a[3]*b[3];
 633 }
 634
 635 static inline f32 v4_length( v4f a )
 636 {
 637    return sqrtf( v4_dot(a,a) );
 638 }
 639
 640 /*
 641  * -----------------------------------------------------------------------------
 642  * Section 3                   Quaternions
 643  * -----------------------------------------------------------------------------
 644  */
 645
 646 static inline void q_identity( v4f q )
 647 {
 648    q[0] = 0.0f; q[1] = 0.0f; q[2] = 0.0f; q[3] = 1.0f;
 649 }
 650
 651 static inline void q_axis_angle( v4f q, v3f axis, f32 angle )
 652 {
 653    f32 a = angle*0.5f,
 654          c = cosf(a),
 655          s = sinf(a);
 656
 657    q[0] = s*axis[0];
 658    q[1] = s*axis[1];
 659    q[2] = s*axis[2];
 660    q[3] = c;
 661 }
 662
 663 static inline void q_mul( v4f q, v4f q1, v4f d )
 664 {
 665    v4f t;
 666    t[0] = q[3]*q1[0] + q[0]*q1[3] + q[1]*q1[2] - q[2]*q1[1];
 667    t[1] = q[3]*q1[1] - q[0]*q1[2] + q[1]*q1[3] + q[2]*q1[0];
 668    t[2] = q[3]*q1[2] + q[0]*q1[1] - q[1]*q1[0] + q[2]*q1[3];
 669    t[3] = q[3]*q1[3] - q[0]*q1[0] - q[1]*q1[1] - q[2]*q1[2];
 670    v4_copy( t, d );
 671 }
 672
 673 static inline void q_normalize( v4f q )
 674 {
 675    f32 l2 = v4_dot(q,q);
 676    if( l2 < 0.00001f ) q_identity( q );
 677    else {
 678       f32 s = 1.0f/sqrtf(l2);
 679       q[0] *= s;
 680       q[1] *= s;
 681       q[2] *= s;
 682       q[3] *= s;
 683    }
 684 }
 685
 686 static inline void q_inv( v4f q, v4f d )
 687 {
 688    f32 s = 1.0f / v4_dot(q,q);
 689    d[0] = -q[0]*s;
 690    d[1] = -q[1]*s;
 691    d[2] = -q[2]*s;
 692    d[3] =  q[3]*s;
 693 }
 694
 695 static inline void q_nlerp( v4f a, v4f b, f32 t, v4f d ){
 696    if( v4_dot(a,b) < 0.0f ){
 697       v4f c;
 698       v4_muls( b, -1.0f, c );
 699       v4_lerp( a, c, t, d );
 700    }
 701    else
 702       v4_lerp( a, b, t, d );
 703
 704    q_normalize( d );
 705 }
 706
 707 static inline void q_m3x3( v4f q, m3x3f d )
 708 {
 709    f32
 710       l = v4_length(q),
 711       s = l > 0.0f? 2.0f/l: 0.0f,
 712
 713       xx = s*q[0]*q[0], xy = s*q[0]*q[1], wx = s*q[3]*q[0],
 714       yy = s*q[1]*q[1], yz = s*q[1]*q[2], wy = s*q[3]*q[1],
 715       zz = s*q[2]*q[2], xz = s*q[0]*q[2], wz = s*q[3]*q[2];
 716
 717    d[0][0] = 1.0f - yy - zz;
 718    d[1][1] = 1.0f - xx - zz;
 719    d[2][2] = 1.0f - xx - yy;
 720    d[0][1] = xy + wz;
 721    d[1][2] = yz + wx;
 722    d[2][0] = xz + wy;
 723    d[1][0] = xy - wz;
 724    d[2][1] = yz - wx;
 725    d[0][2] = xz - wy;
 726 }
 727
 728 static void q_mulv( v4f q, v3f v, v3f d )
 729 {
 730    v3f v1, v2;
 731
 732    v3_muls( q, 2.0f*v3_dot(q,v), v1 );
 733    v3_muls( v, q[3]*q[3] - v3_dot(q,q), v2 );
 734    v3_add( v1, v2, v1 );
 735    v3_cross( q, v, v2 );
 736    v3_muls( v2, 2.0f*q[3], v2 );
 737    v3_add( v1, v2, d );
 738 }
 739
 740 static f32 q_dist( v4f q0, v4f q1 ){
 741    return acosf( 2.0f * v4_dot(q0,q1) -1.0f );
 742 }
 743
 744 /*
 745  * -----------------------------------------------------------------------------
 746  * Section 4.a                  2x2 matrices
 747  * -----------------------------------------------------------------------------
 748  */
 749
 750 #define M2X2_INDENTIY {{1.0f, 0.0f, }, \
 751                        {0.0f, 1.0f, }}
 752
 753 #define M2X2_ZERO     {{0.0f, 0.0f, }, \
 754                        {0.0f, 0.0f, }}
 755
 756 static inline void m2x2_copy( m2x2f a, m2x2f b )
 757 {
 758    v2_copy( a[0], b[0] );
 759    v2_copy( a[1], b[1] );
 760 }
 761
 762 static inline void m2x2_identity( m2x2f a )
 763 {
 764    m2x2f id = M2X2_INDENTIY;
 765    m2x2_copy( id, a );
 766 }
 767
 768 static inline void m2x2_create_rotation( m2x2f a, f32 theta )
 769 {
 770    f32 s, c;
 771
 772    s = sinf( theta );
 773    c = cosf( theta );
 774
 775    a[0][0] =  c;
 776    a[0][1] = -s;
 777    a[1][0] =  s;
 778    a[1][1] =  c;
 779 }
 780
 781 static inline void m2x2_mulv( m2x2f m, v2f v, v2f d )
 782 {
 783    v2f res;
 784
 785    res[0] = m[0][0]*v[0] + m[1][0]*v[1];
 786    res[1] = m[0][1]*v[0] + m[1][1]*v[1];
 787
 788    v2_copy( res, d );
 789 }
 790
 791 /*
 792  * -----------------------------------------------------------------------------
 793  * Section 4.b                  3x3 matrices
 794  * -----------------------------------------------------------------------------
 795  */
 796
 797 #define M3X3_IDENTITY   {{1.0f, 0.0f, 0.0f, },\
 798                         { 0.0f, 1.0f, 0.0f, },\
 799                         { 0.0f, 0.0f, 1.0f, }}
 800
 801 #define M3X3_ZERO       {{0.0f, 0.0f, 0.0f, },\
 802                         { 0.0f, 0.0f, 0.0f, },\
 803                         { 0.0f, 0.0f, 0.0f, }}
 804
 805
 806 static void euler_m3x3( v3f angles, m3x3f d )
 807 {
 808    f32 cosY = cosf( angles[0] ),
 809        sinY = sinf( angles[0] ),
 810        cosP = cosf( angles[1] ),
 811        sinP = sinf( angles[1] ),
 812        cosR = cosf( angles[2] ),
 813        sinR = sinf( angles[2] );
 814
 815    d[2][0] = -sinY * cosP;
 816    d[2][1] =  sinP;
 817    d[2][2] =  cosY * cosP;
 818
 819    d[0][0] =  cosY * cosR;
 820    d[0][1] =  sinR;
 821    d[0][2] =  sinY * cosR;
 822
 823    v3_cross( d[0], d[2], d[1] );
 824 }
 825
 826 static void m3x3_q( m3x3f m, v4f q )
 827 {
 828    f32 diag, r, rinv;
 829
 830    diag = m[0][0] + m[1][1] + m[2][2];
 831    if( diag >= 0.0f )
 832    {
 833       r    = sqrtf( 1.0f + diag );
 834       rinv = 0.5f / r;
 835       q[0] = rinv * (m[1][2] - m[2][1]);
 836       q[1] = rinv * (m[2][0] - m[0][2]);
 837       q[2] = rinv * (m[0][1] - m[1][0]);
 838       q[3] = r    * 0.5f;
 839    }
 840    else if( m[0][0] >= m[1][1] && m[0][0] >= m[2][2] )
 841    {
 842       r    = sqrtf( 1.0f - m[1][1] - m[2][2] + m[0][0] );
 843       rinv = 0.5f / r;
 844       q[0] = r    * 0.5f;
 845       q[1] = rinv * (m[0][1] + m[1][0]);
 846       q[2] = rinv * (m[0][2] + m[2][0]);
 847       q[3] = rinv * (m[1][2] - m[2][1]);
 848    }
 849    else if( m[1][1] >= m[2][2] )
 850    {
 851       r    = sqrtf( 1.0f - m[0][0] - m[2][2] + m[1][1] );
 852       rinv = 0.5f / r;
 853       q[0] = rinv * (m[0][1] + m[1][0]);
 854       q[1] = r    * 0.5f;
 855       q[2] = rinv * (m[1][2] + m[2][1]);
 856       q[3] = rinv * (m[2][0] - m[0][2]);
 857    }
 858    else
 859    {
 860       r    = sqrtf( 1.0f - m[0][0] - m[1][1] + m[2][2] );
 861       rinv = 0.5f / r;
 862       q[0] = rinv * (m[0][2] + m[2][0]);
 863       q[1] = rinv * (m[1][2] + m[2][1]);
 864       q[2] = r    * 0.5f;
 865       q[3] = rinv * (m[0][1] - m[1][0]);
 866    }
 867 }
 868
 869 /* a X b == [b]T a == ...*/
 870 static void m3x3_skew_symetric( m3x3f a, v3f v )
 871 {
 872    a[0][0] =  0.0f;
 873    a[0][1] =  v[2];
 874    a[0][2] = -v[1];
 875    a[1][0] = -v[2];
 876    a[1][1] =  0.0f;
 877    a[1][2] =  v[0];
 878    a[2][0] =  v[1];
 879    a[2][1] = -v[0];
 880    a[2][2] =  0.0f;
 881 }
 882
 883 static void m3x3_add( m3x3f a, m3x3f b, m3x3f d )
 884 {
 885    v3_add( a[0], b[0], d[0] );
 886    v3_add( a[1], b[1], d[1] );
 887    v3_add( a[2], b[2], d[2] );
 888 }
 889
 890 static inline void m3x3_copy( m3x3f a, m3x3f b )
 891 {
 892    v3_copy( a[0], b[0] );
 893    v3_copy( a[1], b[1] );
 894    v3_copy( a[2], b[2] );
 895 }
 896
 897 static inline void m3x3_identity( m3x3f a )
 898 {
 899    m3x3f id = M3X3_IDENTITY;
 900    m3x3_copy( id, a );
 901 }
 902
 903 static void m3x3_diagonal( m3x3f a, f32 v )
 904 {
 905    m3x3_identity( a );
 906    a[0][0] = v;
 907    a[1][1] = v;
 908    a[2][2] = v;
 909 }
 910
 911 static void m3x3_setdiagonalv3( m3x3f a, v3f v )
 912 {
 913    a[0][0] = v[0];
 914    a[1][1] = v[1];
 915    a[2][2] = v[2];
 916 }
 917
 918 static inline void m3x3_zero( m3x3f a )
 919 {
 920    m3x3f z = M3X3_ZERO;
 921    m3x3_copy( z, a );
 922 }
 923
 924 static inline void m3x3_inv( m3x3f src, m3x3f dest )
 925 {
 926    f32 a = src[0][0], b = src[0][1], c = src[0][2],
 927          d = src[1][0], e = src[1][1], f = src[1][2],
 928          g = src[2][0], h = src[2][1], i = src[2][2];
 929
 930    f32 det =    1.f /
 931                (+a*(e*i-h*f)
 932                 -b*(d*i-f*g)
 933                 +c*(d*h-e*g));
 934
 935    dest[0][0] =  (e*i-h*f)*det;
 936    dest[0][1] = -(b*i-c*h)*det;
 937    dest[0][2] =  (b*f-c*e)*det;
 938    dest[1][0] = -(d*i-f*g)*det;
 939    dest[1][1] =  (a*i-c*g)*det;
 940    dest[1][2] = -(a*f-d*c)*det;
 941    dest[2][0] =  (d*h-g*e)*det;
 942    dest[2][1] = -(a*h-g*b)*det;
 943    dest[2][2] =  (a*e-d*b)*det;
 944 }
 945
 946 static f32 m3x3_det( m3x3f m )
 947 {
 948    return   m[0][0] * (m[1][1] * m[2][2] - m[2][1] * m[1][2])
 949           - m[0][1] * (m[1][0] * m[2][2] - m[1][2] * m[2][0])
 950           + m[0][2] * (m[1][0] * m[2][1] - m[1][1] * m[2][0]);
 951 }
 952
 953 static inline void m3x3_transpose( m3x3f src, m3x3f dest )
 954 {
 955    f32 a = src[0][0], b = src[0][1], c = src[0][2],
 956          d = src[1][0], e = src[1][1], f = src[1][2],
 957          g = src[2][0], h = src[2][1], i = src[2][2];
 958
 959    dest[0][0] = a;
 960    dest[0][1] = d;
 961    dest[0][2] = g;
 962    dest[1][0] = b;
 963    dest[1][1] = e;
 964    dest[1][2] = h;
 965    dest[2][0] = c;
 966    dest[2][1] = f;
 967    dest[2][2] = i;
 968 }
 969
 970 static inline void m3x3_mul( m3x3f a, m3x3f b, m3x3f d )
 971 {
 972    f32 a00 = a[0][0], a01 = a[0][1], a02 = a[0][2],
 973          a10 = a[1][0], a11 = a[1][1], a12 = a[1][2],
 974          a20 = a[2][0], a21 = a[2][1], a22 = a[2][2],
 975
 976          b00 = b[0][0], b01 = b[0][1], b02 = b[0][2],
 977          b10 = b[1][0], b11 = b[1][1], b12 = b[1][2],
 978          b20 = b[2][0], b21 = b[2][1], b22 = b[2][2];
 979
 980    d[0][0] = a00*b00 + a10*b01 + a20*b02;
 981    d[0][1] = a01*b00 + a11*b01 + a21*b02;
 982    d[0][2] = a02*b00 + a12*b01 + a22*b02;
 983    d[1][0] = a00*b10 + a10*b11 + a20*b12;
 984    d[1][1] = a01*b10 + a11*b11 + a21*b12;
 985    d[1][2] = a02*b10 + a12*b11 + a22*b12;
 986    d[2][0] = a00*b20 + a10*b21 + a20*b22;
 987    d[2][1] = a01*b20 + a11*b21 + a21*b22;
 988    d[2][2] = a02*b20 + a12*b21 + a22*b22;
 989 }
 990
 991 static inline void m3x3_mulv( m3x3f m, v3f v, v3f d )
 992 {
 993    v3f res;
 994
 995    res[0] = m[0][0]*v[0] + m[1][0]*v[1] + m[2][0]*v[2];
 996    res[1] = m[0][1]*v[0] + m[1][1]*v[1] + m[2][1]*v[2];
 997    res[2] = m[0][2]*v[0] + m[1][2]*v[1] + m[2][2]*v[2];
 998
 999    v3_copy( res, d );
1000 }
1001
1002 static inline void m3x3_projection( m3x3f dst,
1003       f32 const left, f32 const right, f32 const bottom, f32 const top )
1004 {
1005    f32 rl, tb;
1006
1007    m3x3_zero( dst );
1008
1009    rl = 1.0f / (right - left);
1010    tb = 1.0f / (top   - bottom);
1011
1012    dst[0][0] = 2.0f * rl;
1013    dst[1][1] = 2.0f * tb;
1014    dst[2][2] = 1.0f;
1015 }
1016
1017 static inline void m3x3_translate( m3x3f m, v3f v )
1018 {
1019    m[2][0] = m[0][0] * v[0] + m[1][0] * v[1] + m[2][0];
1020    m[2][1] = m[0][1] * v[0] + m[1][1] * v[1] + m[2][1];
1021    m[2][2] = m[0][2] * v[0] + m[1][2] * v[1] + m[2][2];
1022 }
1023
1024 static inline void m3x3_scale( m3x3f m, v3f v )
1025 {
1026    v3_muls( m[0], v[0], m[0] );
1027    v3_muls( m[1], v[1], m[1] );
1028    v3_muls( m[2], v[2], m[2] );
1029 }
1030
1031 static inline void m3x3_scalef( m3x3f m, f32 f )
1032 {
1033    v3f v;
1034    v3_fill( v, f );
1035    m3x3_scale( m, v );
1036 }
1037
1038 static inline void m3x3_rotate( m3x3f m, f32 angle )
1039 {
1040    f32 m00 = m[0][0], m10 = m[1][0],
1041          m01 = m[0][1], m11 = m[1][1],
1042          m02 = m[0][2], m12 = m[1][2];
1043    f32 c, s;
1044
1045    s = sinf( angle );
1046    c = cosf( angle );
1047
1048    m[0][0] = m00 * c + m10 * s;
1049    m[0][1] = m01 * c + m11 * s;
1050    m[0][2] = m02 * c + m12 * s;
1051
1052    m[1][0] = m00 * -s + m10 * c;
1053    m[1][1] = m01 * -s + m11 * c;
1054    m[1][2] = m02 * -s + m12 * c;
1055 }
1056
1057 /*
1058  * -----------------------------------------------------------------------------
1059  * Section 4.c                  4x3 matrices
1060  * -----------------------------------------------------------------------------
1061  */
1062
1063 #define M4X3_IDENTITY   {{1.0f, 0.0f, 0.0f, },\
1064                         { 0.0f, 1.0f, 0.0f, },\
1065                         { 0.0f, 0.0f, 1.0f, },\
1066                         { 0.0f, 0.0f, 0.0f }}
1067
1068 static inline void m4x3_to_3x3( m4x3f a, m3x3f b )
1069 {
1070    v3_copy( a[0], b[0] );
1071    v3_copy( a[1], b[1] );
1072    v3_copy( a[2], b[2] );
1073 }
1074
1075 static inline void m4x3_invert_affine( m4x3f a, m4x3f b )
1076 {
1077    m3x3_transpose( a, b );
1078    m3x3_mulv( b, a[3], b[3] );
1079    v3_negate( b[3], b[3] );
1080 }
1081
1082 static void m4x3_invert_full( m4x3f src, m4x3f dst )
1083 {
1084   f32 t2, t4, t5,
1085         det,
1086         a = src[0][0], b = src[0][1], c = src[0][2],
1087         e = src[1][0], f = src[1][1], g = src[1][2],
1088         i = src[2][0], j = src[2][1], k = src[2][2],
1089         m = src[3][0], n = src[3][1], o = src[3][2];
1090
1091    t2 = j*o - n*k;
1092    t4 = i*o - m*k;
1093    t5 = i*n - m*j;
1094
1095    dst[0][0] =  f*k - g*j;
1096    dst[1][0] =-(e*k - g*i);
1097    dst[2][0] =  e*j - f*i;
1098    dst[3][0] =-(e*t2 - f*t4 + g*t5);
1099
1100    dst[0][1] =-(b*k - c*j);
1101    dst[1][1] =  a*k - c*i;
1102    dst[2][1] =-(a*j - b*i);
1103    dst[3][1] =  a*t2 - b*t4 + c*t5;
1104
1105    t2 = f*o - n*g;
1106    t4 = e*o - m*g;
1107    t5 = e*n - m*f;
1108
1109    dst[0][2] =  b*g - c*f ;
1110    dst[1][2] =-(a*g - c*e );
1111    dst[2][2] =  a*f - b*e ;
1112    dst[3][2] =-(a*t2 - b*t4 + c * t5);
1113
1114    det = 1.0f / (a * dst[0][0] + b * dst[1][0] + c * dst[2][0]);
1115    v3_muls( dst[0], det, dst[0] );
1116    v3_muls( dst[1], det, dst[1] );
1117    v3_muls( dst[2], det, dst[2] );
1118    v3_muls( dst[3], det, dst[3] );
1119 }
1120
1121 static inline void m4x3_copy( m4x3f a, m4x3f b )
1122 {
1123    v3_copy( a[0], b[0] );
1124    v3_copy( a[1], b[1] );
1125    v3_copy( a[2], b[2] );
1126    v3_copy( a[3], b[3] );
1127 }
1128
1129 static inline void m4x3_identity( m4x3f a )
1130 {
1131    m4x3f id = M4X3_IDENTITY;
1132    m4x3_copy( id, a );
1133 }
1134
1135 static void m4x3_mul( m4x3f a, m4x3f b, m4x3f d )
1136 {
1137    f32
1138    a00 = a[0][0], a01 = a[0][1], a02 = a[0][2],
1139    a10 = a[1][0], a11 = a[1][1], a12 = a[1][2],
1140    a20 = a[2][0], a21 = a[2][1], a22 = a[2][2],
1141    a30 = a[3][0], a31 = a[3][1], a32 = a[3][2],
1142    b00 = b[0][0], b01 = b[0][1], b02 = b[0][2],
1143    b10 = b[1][0], b11 = b[1][1], b12 = b[1][2],
1144    b20 = b[2][0], b21 = b[2][1], b22 = b[2][2],
1145    b30 = b[3][0], b31 = b[3][1], b32 = b[3][2];
1146
1147    d[0][0] = a00*b00 + a10*b01 + a20*b02;
1148    d[0][1] = a01*b00 + a11*b01 + a21*b02;
1149    d[0][2] = a02*b00 + a12*b01 + a22*b02;
1150    d[1][0] = a00*b10 + a10*b11 + a20*b12;
1151    d[1][1] = a01*b10 + a11*b11 + a21*b12;
1152    d[1][2] = a02*b10 + a12*b11 + a22*b12;
1153    d[2][0] = a00*b20 + a10*b21 + a20*b22;
1154    d[2][1] = a01*b20 + a11*b21 + a21*b22;
1155    d[2][2] = a02*b20 + a12*b21 + a22*b22;
1156    d[3][0] = a00*b30 + a10*b31 + a20*b32 + a30;
1157    d[3][1] = a01*b30 + a11*b31 + a21*b32 + a31;
1158    d[3][2] = a02*b30 + a12*b31 + a22*b32 + a32;
1159 }
1160
1161 #if 0 /* shat appf mingw wstringop-overflow */
1162 inline
1163 #endif
1164 static void m4x3_mulv( m4x3f m, v3f v, v3f d )
1165 {
1166    v3f res;
1167
1168    res[0] = m[0][0]*v[0] + m[1][0]*v[1] + m[2][0]*v[2] + m[3][0];
1169    res[1] = m[0][1]*v[0] + m[1][1]*v[1] + m[2][1]*v[2] + m[3][1];
1170    res[2] = m[0][2]*v[0] + m[1][2]*v[1] + m[2][2]*v[2] + m[3][2];
1171
1172    v3_copy( res, d );
1173 }
1174
1175 /*
1176  * Transform plane ( xyz, distance )
1177  */
1178 static void m4x3_mulp( m4x3f m, v4f p, v4f d )
1179 {
1180    v3f o;
1181
1182    v3_muls( p, p[3], o );
1183    m4x3_mulv( m, o, o );
1184    m3x3_mulv( m, p, d );
1185
1186    d[3] = v3_dot( o, d );
1187 }
1188
1189 /*
1190  * Affine transforms
1191  */
1192
1193 static void m4x3_translate( m4x3f m, v3f v )
1194 {
1195    v3_muladds( m[3], m[0], v[0], m[3] );
1196    v3_muladds( m[3], m[1], v[1], m[3] );
1197    v3_muladds( m[3], m[2], v[2], m[3] );
1198 }
1199
1200 static void m4x3_rotate_x( m4x3f m, f32 angle )
1201 {
1202    m4x3f t = M4X3_IDENTITY;
1203    f32 c, s;
1204
1205    c = cosf( angle );
1206    s = sinf( angle );
1207
1208    t[1][1] =  c;
1209    t[1][2] =  s;
1210    t[2][1] = -s;
1211    t[2][2] =  c;
1212
1213    m4x3_mul( m, t, m );
1214 }
1215
1216 static void m4x3_rotate_y( m4x3f m, f32 angle )
1217 {
1218    m4x3f t = M4X3_IDENTITY;
1219    f32 c, s;
1220
1221    c = cosf( angle );
1222    s = sinf( angle );
1223
1224    t[0][0] =  c;
1225    t[0][2] = -s;
1226    t[2][0] =  s;
1227    t[2][2] =  c;
1228
1229    m4x3_mul( m, t, m );
1230 }
1231
1232 static void m4x3_rotate_z( m4x3f m, f32 angle )
1233 {
1234    m4x3f t = M4X3_IDENTITY;
1235    f32 c, s;
1236
1237    c = cosf( angle );
1238    s = sinf( angle );
1239
1240    t[0][0] =  c;
1241    t[0][1] =  s;
1242    t[1][0] = -s;
1243    t[1][1] =  c;
1244
1245    m4x3_mul( m, t, m );
1246 }
1247
1248 static void m4x3_expand( m4x3f m, m4x4f d )
1249 {
1250    v3_copy( m[0], d[0] );
1251    v3_copy( m[1], d[1] );
1252    v3_copy( m[2], d[2] );
1253    v3_copy( m[3], d[3] );
1254    d[0][3] = 0.0f;
1255    d[1][3] = 0.0f;
1256    d[2][3] = 0.0f;
1257    d[3][3] = 1.0f;
1258 }
1259
1260 static void m4x3_decompose( m4x3f m, v3f co, v4f q, v3f s )
1261 {
1262    v3_copy( m[3], co );
1263    s[0] = v3_length(m[0]);
1264    s[1] = v3_length(m[1]);
1265    s[2] = v3_length(m[2]);
1266
1267    m3x3f rot;
1268    v3_divs( m[0], s[0], rot[0] );
1269    v3_divs( m[1], s[1], rot[1] );
1270    v3_divs( m[2], s[2], rot[2] );
1271
1272    m3x3_q( rot, q );
1273 }
1274
1275 static void m4x3_expand_aabb_point( m4x3f m, boxf box, v3f point ){
1276    v3f v;
1277    m4x3_mulv( m, point, v );
1278
1279    v3_minv( box[0], v, box[0] );
1280    v3_maxv( box[1], v, box[1] );
1281 }
1282
1283 static void m4x3_expand_aabb_aabb( m4x3f m, boxf boxa, boxf boxb ){
1284    v3f a; v3f b;
1285    v3_copy( boxb[0], a );
1286    v3_copy( boxb[1], b );
1287    m4x3_expand_aabb_point( m, boxa, (v3f){ a[0], a[1], a[2] } );
1288    m4x3_expand_aabb_point( m, boxa, (v3f){ a[0], b[1], a[2] } );
1289    m4x3_expand_aabb_point( m, boxa, (v3f){ b[0], b[1], a[2] } );
1290    m4x3_expand_aabb_point( m, boxa, (v3f){ b[0], a[1], a[2] } );
1291    m4x3_expand_aabb_point( m, boxa, (v3f){ a[0], a[1], b[2] } );
1292    m4x3_expand_aabb_point( m, boxa, (v3f){ a[0], b[1], b[2] } );
1293    m4x3_expand_aabb_point( m, boxa, (v3f){ b[0], b[1], b[2] } );
1294    m4x3_expand_aabb_point( m, boxa, (v3f){ b[0], a[1], b[2] } );
1295 }
1296 static inline void m4x3_lookat( m4x3f m, v3f pos, v3f target, v3f up )
1297 {
1298    v3f dir;
1299    v3_sub( target, pos, dir );
1300    v3_normalize( dir );
1301
1302    v3_copy( dir, m[2] );
1303
1304    v3_cross( up, m[2], m[0] );
1305    v3_normalize( m[0] );
1306
1307    v3_cross( m[2], m[0], m[1] );
1308    v3_copy( pos, m[3] );
1309 }
1310
1311 /*
1312  * -----------------------------------------------------------------------------
1313  * Section 4.d                  4x4 matrices
1314  * -----------------------------------------------------------------------------
1315  */
1316
1317 #define M4X4_IDENTITY   {{1.0f, 0.0f, 0.0f, 0.0f },\
1318                         { 0.0f, 1.0f, 0.0f, 0.0f },\
1319                         { 0.0f, 0.0f, 1.0f, 0.0f },\
1320                         { 0.0f, 0.0f, 0.0f, 1.0f }}
1321 #define M4X4_ZERO       {{0.0f, 0.0f, 0.0f, 0.0f },\
1322                         { 0.0f, 0.0f, 0.0f, 0.0f },\
1323                         { 0.0f, 0.0f, 0.0f, 0.0f },\
1324                         { 0.0f, 0.0f, 0.0f, 0.0f }}
1325
1326 static void m4x4_projection( m4x4f m, f32 angle,
1327                              f32 ratio, f32 fnear, f32 ffar )
1328 {
1329    f32 scale = tanf( angle * 0.5f * VG_PIf / 180.0f ) * fnear,
1330          r = ratio * scale,
1331          l = -r,
1332          t = scale,
1333          b = -t;
1334
1335    m[0][0] =  2.0f * fnear / (r - l);
1336    m[0][1] =  0.0f;
1337    m[0][2] =  0.0f;
1338    m[0][3] =  0.0f;
1339
1340    m[1][0] =  0.0f;
1341    m[1][1] =  2.0f * fnear / (t - b);
1342    m[1][2] =  0.0f;
1343    m[1][3] =  0.0f;
1344
1345    m[2][0] =  (r + l) / (r - l);
1346    m[2][1] =  (t + b) / (t - b);
1347    m[2][2] = -(ffar + fnear) / (ffar - fnear);
1348    m[2][3] = -1.0f;
1349
1350    m[3][0] =  0.0f;
1351    m[3][1] =  0.0f;
1352    m[3][2] = -2.0f * ffar * fnear / (ffar - fnear);
1353    m[3][3] =  0.0f;
1354 }
1355
1356 static void m4x4_translate( m4x4f m, v3f v )
1357 {
1358    v4_muladds( m[3], m[0], v[0], m[3] );
1359    v4_muladds( m[3], m[1], v[1], m[3] );
1360    v4_muladds( m[3], m[2], v[2], m[3] );
1361 }
1362
1363 static inline void m4x4_copy( m4x4f a, m4x4f b )
1364 {
1365    v4_copy( a[0], b[0] );
1366    v4_copy( a[1], b[1] );
1367    v4_copy( a[2], b[2] );
1368    v4_copy( a[3], b[3] );
1369 }
1370
1371 static inline void m4x4_identity( m4x4f a )
1372 {
1373    m4x4f id = M4X4_IDENTITY;
1374    m4x4_copy( id, a );
1375 }
1376
1377 static inline void m4x4_zero( m4x4f a )
1378 {
1379    m4x4f zero = M4X4_ZERO;
1380    m4x4_copy( zero, a );
1381 }
1382
1383 static inline void m4x4_mul( m4x4f a, m4x4f b, m4x4f d )
1384 {
1385    f32 a00 = a[0][0], a01 = a[0][1], a02 = a[0][2], a03 = a[0][3],
1386          a10 = a[1][0], a11 = a[1][1], a12 = a[1][2], a13 = a[1][3],
1387          a20 = a[2][0], a21 = a[2][1], a22 = a[2][2], a23 = a[2][3],
1388          a30 = a[3][0], a31 = a[3][1], a32 = a[3][2], a33 = a[3][3],
1389
1390          b00 = b[0][0], b01 = b[0][1], b02 = b[0][2], b03 = b[0][3],
1391          b10 = b[1][0], b11 = b[1][1], b12 = b[1][2], b13 = b[1][3],
1392          b20 = b[2][0], b21 = b[2][1], b22 = b[2][2], b23 = b[2][3],
1393          b30 = b[3][0], b31 = b[3][1], b32 = b[3][2], b33 = b[3][3];
1394
1395   d[0][0] = a00*b00 + a10*b01 + a20*b02 + a30*b03;
1396   d[0][1] = a01*b00 + a11*b01 + a21*b02 + a31*b03;
1397   d[0][2] = a02*b00 + a12*b01 + a22*b02 + a32*b03;
1398   d[0][3] = a03*b00 + a13*b01 + a23*b02 + a33*b03;
1399   d[1][0] = a00*b10 + a10*b11 + a20*b12 + a30*b13;
1400   d[1][1] = a01*b10 + a11*b11 + a21*b12 + a31*b13;
1401   d[1][2] = a02*b10 + a12*b11 + a22*b12 + a32*b13;
1402   d[1][3] = a03*b10 + a13*b11 + a23*b12 + a33*b13;
1403   d[2][0] = a00*b20 + a10*b21 + a20*b22 + a30*b23;
1404   d[2][1] = a01*b20 + a11*b21 + a21*b22 + a31*b23;
1405   d[2][2] = a02*b20 + a12*b21 + a22*b22 + a32*b23;
1406   d[2][3] = a03*b20 + a13*b21 + a23*b22 + a33*b23;
1407   d[3][0] = a00*b30 + a10*b31 + a20*b32 + a30*b33;
1408   d[3][1] = a01*b30 + a11*b31 + a21*b32 + a31*b33;
1409   d[3][2] = a02*b30 + a12*b31 + a22*b32 + a32*b33;
1410   d[3][3] = a03*b30 + a13*b31 + a23*b32 + a33*b33;
1411 }
1412
1413 static inline void m4x4_mulv( m4x4f m, v4f v, v4f d )
1414 {
1415    v4f res;
1416
1417    res[0] = m[0][0]*v[0] + m[1][0]*v[1] + m[2][0]*v[2] + m[3][0]*v[3];
1418    res[1] = m[0][1]*v[0] + m[1][1]*v[1] + m[2][1]*v[2] + m[3][1]*v[3];
1419    res[2] = m[0][2]*v[0] + m[1][2]*v[1] + m[2][2]*v[2] + m[3][2]*v[3];
1420    res[3] = m[0][3]*v[0] + m[1][3]*v[1] + m[2][3]*v[2] + m[3][3]*v[3];
1421
1422    v4_copy( res, d );
1423 }
1424
1425 static inline void m4x4_inv( m4x4f a, m4x4f d )
1426 {
1427    f32 a00 = a[0][0], a01 = a[0][1], a02 = a[0][2], a03 = a[0][3],
1428          a10 = a[1][0], a11 = a[1][1], a12 = a[1][2], a13 = a[1][3],
1429          a20 = a[2][0], a21 = a[2][1], a22 = a[2][2], a23 = a[2][3],
1430          a30 = a[3][0], a31 = a[3][1], a32 = a[3][2], a33 = a[3][3],
1431          det,
1432          t[6];
1433
1434    t[0] = a22*a33 - a32*a23;
1435    t[1] = a21*a33 - a31*a23;
1436    t[2] = a21*a32 - a31*a22;
1437    t[3] = a20*a33 - a30*a23;
1438    t[4] = a20*a32 - a30*a22;
1439    t[5] = a20*a31 - a30*a21;
1440
1441    d[0][0] =  a11*t[0] - a12*t[1] + a13*t[2];
1442    d[1][0] =-(a10*t[0] - a12*t[3] + a13*t[4]);
1443    d[2][0] =  a10*t[1] - a11*t[3] + a13*t[5];
1444    d[3][0] =-(a10*t[2] - a11*t[4] + a12*t[5]);
1445
1446    d[0][1] =-(a01*t[0] - a02*t[1] + a03*t[2]);
1447    d[1][1] =  a00*t[0] - a02*t[3] + a03*t[4];
1448    d[2][1] =-(a00*t[1] - a01*t[3] + a03*t[5]);
1449    d[3][1] =  a00*t[2] - a01*t[4] + a02*t[5];
1450
1451    t[0] = a12*a33 - a32*a13;
1452    t[1] = a11*a33 - a31*a13;
1453    t[2] = a11*a32 - a31*a12;
1454    t[3] = a10*a33 - a30*a13;
1455    t[4] = a10*a32 - a30*a12;
1456    t[5] = a10*a31 - a30*a11;
1457
1458    d[0][2] =  a01*t[0] - a02*t[1] + a03*t[2];
1459    d[1][2] =-(a00*t[0] - a02*t[3] + a03*t[4]);
1460    d[2][2] =  a00*t[1] - a01*t[3] + a03*t[5];
1461    d[3][2] =-(a00*t[2] - a01*t[4] + a02*t[5]);
1462
1463    t[0] = a12*a23 - a22*a13;
1464    t[1] = a11*a23 - a21*a13;
1465    t[2] = a11*a22 - a21*a12;
1466    t[3] = a10*a23 - a20*a13;
1467    t[4] = a10*a22 - a20*a12;
1468    t[5] = a10*a21 - a20*a11;
1469
1470    d[0][3] =-(a01*t[0] - a02*t[1] + a03*t[2]);
1471    d[1][3] =  a00*t[0] - a02*t[3] + a03*t[4];
1472    d[2][3] =-(a00*t[1] - a01*t[3] + a03*t[5]);
1473    d[3][3] =  a00*t[2] - a01*t[4] + a02*t[5];
1474
1475    det = 1.0f / (a00*d[0][0] + a01*d[1][0] + a02*d[2][0] + a03*d[3][0]);
1476    v4_muls( d[0], det, d[0] );
1477    v4_muls( d[1], det, d[1] );
1478    v4_muls( d[2], det, d[2] );
1479    v4_muls( d[3], det, d[3] );
1480 }
1481
1482 /*
1483  * -----------------------------------------------------------------------------
1484  * Section 5.a                       Boxes
1485  * -----------------------------------------------------------------------------
1486  */
1487
1488 static inline void box_addpt( boxf a, v3f pt )
1489 {
1490    v3_minv( a[0], pt, a[0] );
1491    v3_maxv( a[1], pt, a[1] );
1492 }
1493
1494 static inline void box_concat( boxf a, boxf b )
1495 {
1496    v3_minv( a[0], b[0], a[0] );
1497    v3_maxv( a[1], b[1], a[1] );
1498 }
1499
1500 static inline void box_copy( boxf a, boxf b )
1501 {
1502    v3_copy( a[0], b[0] );
1503    v3_copy( a[1], b[1] );
1504 }
1505
1506 static inline int box_overlap( boxf a, boxf b )
1507 {
1508    return
1509    ( a[0][0] <= b[1][0] && a[1][0] >= b[0][0] ) &&
1510    ( a[0][1] <= b[1][1] && a[1][1] >= b[0][1] ) &&
1511    ( a[0][2] <= b[1][2] && a[1][2] >= b[0][2] )
1512    ;
1513 }
1514
1515 static int box_within( boxf greater, boxf lesser )
1516 {
1517    v3f a, b;
1518    v3_sub( lesser[0], greater[0], a );
1519    v3_sub( lesser[1], greater[1], b );
1520
1521    if( (a[0] >= 0.0f) && (a[1] >= 0.0f) && (a[2] >= 0.0f) &&
1522        (b[0] <= 0.0f) && (b[1] <= 0.0f) && (b[2] <= 0.0f) )
1523    {
1524       return 1;
1525    }
1526
1527    return 0;
1528 }
1529
1530 static inline void box_init_inf( boxf box ){
1531    v3_fill( box[0],  INFINITY );
1532    v3_fill( box[1], -INFINITY );
1533 }
1534
1535 /*
1536  * -----------------------------------------------------------------------------
1537  * Section 5.b                       Planes
1538  * -----------------------------------------------------------------------------
1539  */
1540
1541 static inline void tri_to_plane( f64 a[3], f64 b[3],
1542       f64 c[3], f64 p[4] )
1543 {
1544    f64 edge0[3];
1545    f64 edge1[3];
1546    f64 l;
1547
1548    edge0[0] = b[0] - a[0];
1549    edge0[1] = b[1] - a[1];
1550    edge0[2] = b[2] - a[2];
1551
1552    edge1[0] = c[0] - a[0];
1553    edge1[1] = c[1] - a[1];
1554    edge1[2] = c[2] - a[2];
1555
1556    p[0] = edge0[1] * edge1[2] - edge0[2] * edge1[1];
1557    p[1] = edge0[2] * edge1[0] - edge0[0] * edge1[2];
1558    p[2] = edge0[0] * edge1[1] - edge0[1] * edge1[0];
1559
1560    l = sqrt(p[0] * p[0] + p[1] * p[1] + p[2] * p[2]);
1561    p[3] = (p[0] * a[0] + p[1] * a[1] + p[2] * a[2]) / l;
1562
1563    p[0] = p[0] / l;
1564    p[1] = p[1] / l;
1565    p[2] = p[2] / l;
1566 }
1567
1568 static int plane_intersect3( v4f a, v4f b, v4f c, v3f p )
1569 {
1570    f32 const epsilon = 1e-6f;
1571
1572    v3f x;
1573    v3_cross( a, b, x );
1574    f32 d = v3_dot( x, c );
1575
1576    if( (d < epsilon) && (d > -epsilon) ) return 0;
1577
1578    v3f v0, v1, v2;
1579    v3_cross( b, c, v0 );
1580    v3_cross( c, a, v1 );
1581    v3_cross( a, b, v2 );
1582
1583    v3_muls(       v0, a[3], p );
1584    v3_muladds( p, v1, b[3], p );
1585    v3_muladds( p, v2, c[3], p );
1586    v3_divs( p, d, p );
1587
1588    return 1;
1589 }
1590
1591 int plane_intersect2( v4f a, v4f b, v3f p, v3f n )
1592 {
1593    f32 const epsilon = 1e-6f;
1594
1595    v4f c;
1596    v3_cross( a, b, c );
1597    f32 d = v3_length2( c );
1598
1599    if( (d < epsilon) && (d > -epsilon) )
1600       return 0;
1601
1602    v3f v0, v1, vx;
1603    v3_cross( c, b, v0 );
1604    v3_cross( a, c, v1 );
1605
1606    v3_muls( v0, a[3], vx );
1607    v3_muladds( vx, v1, b[3], vx );
1608    v3_divs( vx, d, p );
1609    v3_copy( c, n );
1610
1611    return 1;
1612 }
1613
1614 static int plane_segment( v4f plane, v3f a, v3f b, v3f co )
1615 {
1616    f32 d0 = v3_dot( a, plane ) - plane[3],
1617        d1 = v3_dot( b, plane ) - plane[3];
1618
1619    if( d0*d1 < 0.0f )
1620    {
1621       f32 tot = 1.0f/( fabsf(d0)+fabsf(d1) );
1622
1623       v3_muls( a, fabsf(d1) * tot, co );
1624       v3_muladds( co, b, fabsf(d0) * tot, co );
1625       return 1;
1626    }
1627
1628    return 0;
1629 }
1630
1631 static inline f64 plane_polarity( f64 p[4], f64 a[3] )
1632 {
1633    return
1634    (a[0] * p[0] + a[1] * p[1] + a[2] * p[2])
1635    -(p[0]*p[3] * p[0] + p[1]*p[3] * p[1] + p[2]*p[3] * p[2])
1636    ;
1637 }
1638
1639 static f32 ray_plane( v4f plane, v3f co, v3f dir ){
1640    f32 d = v3_dot( plane, dir );
1641    if( fabsf(d) > 1e-6f ){
1642       v3f v0;
1643       v3_muls( plane, plane[3], v0 );
1644       v3_sub( v0, co, v0 );
1645       return v3_dot( v0, plane ) / d;
1646    }
1647    else return INFINITY;
1648 }
1649
1650 /*
1651  * -----------------------------------------------------------------------------
1652  * Section 5.c            Closest point functions
1653  * -----------------------------------------------------------------------------
1654  */
1655
1656 /*
1657  * These closest point tests were learned from Real-Time Collision Detection by
1658  * Christer Ericson
1659  */
1660 static f32 closest_segment_segment( v3f p1, v3f q1, v3f p2, v3f q2,
1661    f32 *s, f32 *t, v3f c1, v3f c2)
1662 {
1663    v3f d1,d2,r;
1664    v3_sub( q1, p1, d1 );
1665    v3_sub( q2, p2, d2 );
1666    v3_sub( p1, p2, r );
1667
1668    f32 a = v3_length2( d1 ),
1669          e = v3_length2( d2 ),
1670          f = v3_dot( d2, r );
1671
1672    const f32 kEpsilon = 0.0001f;
1673
1674    if( a <= kEpsilon && e <= kEpsilon )
1675    {
1676       *s = 0.0f;
1677       *t = 0.0f;
1678       v3_copy( p1, c1 );
1679       v3_copy( p2, c2 );
1680
1681       v3f v0;
1682       v3_sub( c1, c2, v0 );
1683
1684       return v3_length2( v0 );
1685    }
1686
1687    if( a<= kEpsilon )
1688    {
1689       *s = 0.0f;
1690       *t = vg_clampf( f / e, 0.0f, 1.0f );
1691    }
1692    else
1693    {
1694       f32 c = v3_dot( d1, r );
1695       if( e <= kEpsilon )
1696       {
1697          *t = 0.0f;
1698          *s = vg_clampf( -c / a, 0.0f, 1.0f );
1699       }
1700       else
1701       {
1702          f32 b = v3_dot(d1,d2),
1703                d = a*e-b*b;
1704
1705          if( d != 0.0f )
1706          {
1707             *s = vg_clampf((b*f - c*e)/d, 0.0f, 1.0f);
1708          }
1709          else
1710          {
1711             *s = 0.0f;
1712          }
1713
1714          *t = (b*(*s)+f) / e;
1715
1716          if( *t < 0.0f )
1717          {
1718             *t = 0.0f;
1719             *s = vg_clampf( -c / a, 0.0f, 1.0f );
1720          }
1721          else if( *t > 1.0f )
1722          {
1723             *t = 1.0f;
1724             *s = vg_clampf((b-c)/a,0.0f,1.0f);
1725          }
1726       }
1727    }
1728
1729    v3_muladds( p1, d1, *s, c1 );
1730    v3_muladds( p2, d2, *t, c2 );
1731
1732    v3f v0;
1733    v3_sub( c1, c2, v0 );
1734    return v3_length2( v0 );
1735 }
1736
1737 static int point_inside_aabb( boxf box, v3f point )
1738 {
1739    if((point[0]<=box[1][0]) && (point[1]<=box[1][1]) && (point[2]<=box[1][2]) &&
1740       (point[0]>=box[0][0]) && (point[1]>=box[0][1]) && (point[2]>=box[0][2]) )
1741       return 1;
1742    else
1743       return 0;
1744 }
1745
1746 static void closest_point_aabb( v3f p, boxf box, v3f dest )
1747 {
1748    v3_maxv( p, box[0], dest );
1749    v3_minv( dest, box[1], dest );
1750 }
1751
1752 static void closest_point_obb( v3f p, boxf box,
1753                                   m4x3f mtx, m4x3f inv_mtx, v3f dest )
1754 {
1755    v3f local;
1756    m4x3_mulv( inv_mtx, p, local );
1757    closest_point_aabb( local, box, local );
1758    m4x3_mulv( mtx, local, dest );
1759 }
1760
1761 static f32 closest_point_segment( v3f a, v3f b, v3f point, v3f dest )
1762 {
1763    v3f v0, v1;
1764    v3_sub( b, a, v0 );
1765    v3_sub( point, a, v1 );
1766
1767    f32 t = v3_dot( v1, v0 ) / v3_length2(v0);
1768    t = vg_clampf(t,0.0f,1.0f);
1769    v3_muladds( a, v0, t, dest );
1770    return t;
1771 }
1772
1773 static void closest_on_triangle( v3f p, v3f tri[3], v3f dest )
1774 {
1775    v3f ab, ac, ap;
1776    f32 d1, d2;
1777
1778    /* Region outside A */
1779    v3_sub( tri[1], tri[0], ab );
1780    v3_sub( tri[2], tri[0], ac );
1781    v3_sub( p, tri[0], ap );
1782
1783    d1 = v3_dot(ab,ap);
1784    d2 = v3_dot(ac,ap);
1785    if( d1 <= 0.0f && d2 <= 0.0f )
1786    {
1787       v3_copy( tri[0], dest );
1788       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1789       return;
1790    }
1791
1792    /* Region outside B */
1793    v3f bp;
1794    f32 d3, d4;
1795
1796    v3_sub( p, tri[1], bp );
1797    d3 = v3_dot( ab, bp );
1798    d4 = v3_dot( ac, bp );
1799
1800    if( d3 >= 0.0f && d4 <= d3 )
1801    {
1802       v3_copy( tri[1], dest );
1803       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1804       return;
1805    }
1806
1807    /* Edge region of AB */
1808    f32 vc = d1*d4 - d3*d2;
1809    if( vc <= 0.0f && d1 >= 0.0f && d3 <= 0.0f )
1810    {
1811       f32 v = d1 / (d1-d3);
1812       v3_muladds( tri[0], ab, v, dest );
1813       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1814       return;
1815    }
1816
1817    /* Region outside C */
1818    v3f cp;
1819    f32 d5, d6;
1820    v3_sub( p, tri[2], cp );
1821    d5 = v3_dot(ab, cp);
1822    d6 = v3_dot(ac, cp);
1823
1824    if( d6 >= 0.0f && d5 <= d6 )
1825    {
1826       v3_copy( tri[2], dest );
1827       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1828       return;
1829    }
1830
1831    /* Region of AC */
1832    f32 vb = d5*d2 - d1*d6;
1833    if( vb <= 0.0f && d2 >= 0.0f && d6 <= 0.0f )
1834    {
1835       f32 w = d2 / (d2-d6);
1836       v3_muladds( tri[0], ac, w, dest );
1837       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1838       return;
1839    }
1840
1841    /* Region of BC */
1842    f32 va = d3*d6 - d5*d4;
1843    if( va <= 0.0f && (d4-d3) >= 0.0f && (d5-d6) >= 0.0f )
1844    {
1845       f32 w = (d4-d3) / ((d4-d3) + (d5-d6));
1846       v3f bc;
1847       v3_sub( tri[2], tri[1], bc );
1848       v3_muladds( tri[1], bc, w, dest );
1849       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1850       return;
1851    }
1852
1853    /* P inside region, Q via barycentric coordinates uvw */
1854    f32 d = 1.0f/(va+vb+vc),
1855          v = vb*d,
1856          w = vc*d;
1857
1858    v3_muladds( tri[0], ab, v, dest );
1859    v3_muladds( dest, ac, w, dest );
1860 }
1861
1862 enum contact_type
1863 {
1864    k_contact_type_default,
1865    k_contact_type_disabled,
1866    k_contact_type_edge
1867 };
1868
1869 static enum contact_type closest_on_triangle_1( v3f p, v3f tri[3], v3f dest )
1870 {
1871    v3f ab, ac, ap;
1872    f32 d1, d2;
1873
1874    /* Region outside A */
1875    v3_sub( tri[1], tri[0], ab );
1876    v3_sub( tri[2], tri[0], ac );
1877    v3_sub( p, tri[0], ap );
1878
1879    d1 = v3_dot(ab,ap);
1880    d2 = v3_dot(ac,ap);
1881    if( d1 <= 0.0f && d2 <= 0.0f )
1882    {
1883       v3_copy( tri[0], dest );
1884       return k_contact_type_default;
1885    }
1886
1887    /* Region outside B */
1888    v3f bp;
1889    f32 d3, d4;
1890
1891    v3_sub( p, tri[1], bp );
1892    d3 = v3_dot( ab, bp );
1893    d4 = v3_dot( ac, bp );
1894
1895    if( d3 >= 0.0f && d4 <= d3 )
1896    {
1897       v3_copy( tri[1], dest );
1898       return k_contact_type_edge;
1899    }
1900
1901    /* Edge region of AB */
1902    f32 vc = d1*d4 - d3*d2;
1903    if( vc <= 0.0f && d1 >= 0.0f && d3 <= 0.0f )
1904    {
1905       f32 v = d1 / (d1-d3);
1906       v3_muladds( tri[0], ab, v, dest );
1907       return k_contact_type_edge;
1908    }
1909
1910    /* Region outside C */
1911    v3f cp;
1912    f32 d5, d6;
1913    v3_sub( p, tri[2], cp );
1914    d5 = v3_dot(ab, cp);
1915    d6 = v3_dot(ac, cp);
1916
1917    if( d6 >= 0.0f && d5 <= d6 )
1918    {
1919       v3_copy( tri[2], dest );
1920       return k_contact_type_edge;
1921    }
1922
1923    /* Region of AC */
1924    f32 vb = d5*d2 - d1*d6;
1925    if( vb <= 0.0f && d2 >= 0.0f && d6 <= 0.0f )
1926    {
1927       f32 w = d2 / (d2-d6);
1928       v3_muladds( tri[0], ac, w, dest );
1929       return k_contact_type_edge;
1930    }
1931
1932    /* Region of BC */
1933    f32 va = d3*d6 - d5*d4;
1934    if( va <= 0.0f && (d4-d3) >= 0.0f && (d5-d6) >= 0.0f )
1935    {
1936       f32 w = (d4-d3) / ((d4-d3) + (d5-d6));
1937       v3f bc;
1938       v3_sub( tri[2], tri[1], bc );
1939       v3_muladds( tri[1], bc, w, dest );
1940       return k_contact_type_edge;
1941    }
1942
1943    /* P inside region, Q via barycentric coordinates uvw */
1944    f32 d = 1.0f/(va+vb+vc),
1945          v = vb*d,
1946          w = vc*d;
1947
1948    v3_muladds( tri[0], ab, v, dest );
1949    v3_muladds( dest, ac, w, dest );
1950
1951    return k_contact_type_default;
1952 }
1953
1954 static void closest_point_elipse( v2f p, v2f e, v2f o )
1955 {
1956    v2f pabs, ei, e2, ve, t;
1957
1958    v2_abs( p, pabs );
1959    v2_div( (v2f){ 1.0f, 1.0f }, e, ei );
1960    v2_mul( e, e, e2 );
1961    v2_mul( ei, (v2f){ e2[0]-e2[1], e2[1]-e2[0] }, ve );
1962
1963    v2_fill( t, 0.70710678118654752f );
1964
1965    for( int i=0; i<3; i++ ){
1966       v2f v, u, ud, w;
1967
1968       v2_mul( ve, t, v );  /* ve*t*t*t */
1969       v2_mul( v, t, v );
1970       v2_mul( v, t, v );
1971
1972       v2_sub( pabs, v, u );
1973       v2_normalize( u );
1974
1975       v2_mul( t, e, ud );
1976       v2_sub( ud, v, ud );
1977
1978       v2_muls( u, v2_length( ud ), u );
1979
1980       v2_add( v, u, w );
1981       v2_mul( w, ei, w );
1982
1983       v2_maxv( (v2f){0.0f,0.0f}, w, t );
1984       v2_normalize( t );
1985    }
1986
1987    v2_mul( t, e, o );
1988    v2_copysign( o, p );
1989 }
1990
1991 /*
1992  * -----------------------------------------------------------------------------
1993  * Section 5.d               Raycasts & Spherecasts
1994  * -----------------------------------------------------------------------------
1995  */
1996
1997 int ray_aabb1( boxf box, v3f co, v3f dir_inv, f32 dist )
1998 {
1999    v3f v0, v1;
2000    f32 tmin, tmax;
2001
2002    v3_sub( box[0], co, v0 );
2003    v3_sub( box[1], co, v1 );
2004
2005    v3_mul( v0, dir_inv, v0 );
2006    v3_mul( v1, dir_inv, v1 );
2007
2008    tmin = vg_minf( v0[0], v1[0] );
2009    tmax = vg_maxf( v0[0], v1[0] );
2010    tmin = vg_maxf( tmin, vg_minf( v0[1], v1[1] ));
2011    tmax = vg_minf( tmax, vg_maxf( v0[1], v1[1] ));
2012    tmin = vg_maxf( tmin, vg_minf( v0[2], v1[2] ));
2013    tmax = vg_minf( tmax, vg_maxf( v0[2], v1[2] ));
2014
2015    return (tmax >= tmin) && (tmin <= dist) && (tmax >= 0.0f);
2016 }
2017
2018 /* Time of intersection with ray vs triangle */
2019 static int ray_tri( v3f tri[3], v3f co,
2020                     v3f dir, f32 *dist, int backfaces )
2021 {
2022    f32 const kEpsilon = 0.00001f;
2023
2024    v3f v0, v1, h, s, q, n;
2025    f32 a,f,u,v,t;
2026
2027    f32 *pa = tri[0],
2028          *pb = tri[1],
2029          *pc = tri[2];
2030
2031    v3_sub( pb, pa, v0 );
2032    v3_sub( pc, pa, v1 );
2033    v3_cross( dir, v1, h );
2034    v3_cross( v0, v1, n );
2035
2036    if( (v3_dot( n, dir ) > 0.0f) && !backfaces ) /* Backface culling */
2037       return 0;
2038
2039    /* Parralel */
2040    a = v3_dot( v0, h );
2041
2042    if( a > -kEpsilon && a < kEpsilon )
2043       return 0;
2044
2045    f = 1.0f/a;
2046    v3_sub( co, pa, s );
2047
2048    u = f * v3_dot(s, h);
2049    if( u < 0.0f || u > 1.0f )
2050       return 0;
2051
2052    v3_cross( s, v0, q );
2053    v = f * v3_dot( dir, q );
2054    if( v < 0.0f || u+v > 1.0f )
2055       return 0;
2056
2057    t = f * v3_dot(v1, q);
2058    if( t > kEpsilon )
2059    {
2060       *dist = t;
2061       return 1;
2062    }
2063    else return 0;
2064 }
2065
2066 /* time of intersection with ray vs sphere */
2067 static int ray_sphere( v3f c, f32 r,
2068                        v3f co, v3f dir, f32 *t )
2069 {
2070    v3f m;
2071    v3_sub( co, c, m );
2072
2073    f32 b  = v3_dot( m, dir ),
2074          c1 = v3_dot( m, m ) - r*r;
2075
2076    /* Exit if r’s origin outside s (c > 0) and r pointing away from s (b > 0) */
2077    if( c1 > 0.0f && b > 0.0f )
2078       return 0;
2079
2080    f32 discr = b*b - c1;
2081
2082    /* A negative discriminant corresponds to ray missing sphere */
2083    if( discr < 0.0f )
2084       return 0;
2085
2086    /*
2087     * Ray now found to intersect sphere, compute smallest t value of
2088     * intersection
2089     */
2090    *t = -b - sqrtf( discr );
2091
2092    /* If t is negative, ray started inside sphere so clamp t to zero */
2093    if( *t < 0.0f )
2094       *t = 0.0f;
2095
2096    return 1;
2097 }
2098
2099 /*
2100  * time of intersection of ray vs cylinder
2101  * The cylinder does not have caps but is finite
2102  *
2103  * Heavily adapted from regular segment vs cylinder from:
2104  *    Real-Time Collision Detection
2105  */
2106 static int ray_uncapped_finite_cylinder( v3f q, v3f p, f32 r,
2107                                          v3f co, v3f dir, f32 *t )
2108 {
2109    v3f d, m, n, sb;
2110    v3_muladds( co, dir, 1.0f, sb );
2111
2112    v3_sub( q, p, d );
2113    v3_sub( co, p, m );
2114    v3_sub( sb, co, n );
2115
2116    f32 md = v3_dot( m, d ),
2117          nd = v3_dot( n, d ),
2118          dd = v3_dot( d, d ),
2119          nn = v3_dot( n, n ),
2120          mn = v3_dot( m, n ),
2121          a  = dd*nn - nd*nd,
2122          k  = v3_dot( m, m ) - r*r,
2123          c  = dd*k - md*md;
2124
2125    if( fabsf(a) < 0.00001f )
2126    {
2127       /* Segment runs parallel to cylinder axis */
2128       return 0;
2129    }
2130
2131    f32 b     = dd*mn - nd*md,
2132          discr = b*b - a*c;
2133
2134    if( discr < 0.0f )
2135       return 0; /* No real roots; no intersection */
2136
2137    *t = (-b - sqrtf(discr)) / a;
2138    if( *t < 0.0f )
2139       return 0; /* Intersection behind ray */
2140
2141    /* Check within cylinder segment */
2142    if( md + (*t)*nd < 0.0f )
2143       return 0;
2144
2145    if( md + (*t)*nd > dd )
2146       return 0;
2147
2148    /* Segment intersects cylinder between the endcaps; t is correct */
2149    return 1;
2150 }
2151
2152 /*
2153  * Time of intersection of sphere and triangle. Origin must be outside the
2154  * colliding area. This is a fairly long procedure.
2155  */
2156 static int spherecast_triangle( v3f tri[3],
2157                                 v3f co, v3f dir, f32 r, f32 *t, v3f n )
2158 {
2159    v3f sum[3];
2160    v3f v0, v1;
2161
2162    v3_sub( tri[1], tri[0], v0 );
2163    v3_sub( tri[2], tri[0], v1 );
2164    v3_cross( v0, v1, n );
2165    v3_normalize( n );
2166    v3_muladds( tri[0], n, r, sum[0] );
2167    v3_muladds( tri[1], n, r, sum[1] );
2168    v3_muladds( tri[2], n, r, sum[2] );
2169
2170    int hit = 0;
2171    f32 t_min = INFINITY,
2172          t1;
2173
2174    if( ray_tri( sum, co, dir, &t1, 0 ) ){
2175       t_min = vg_minf( t_min, t1 );
2176       hit = 1;
2177    }
2178
2179    /*
2180     * Currently disabled; ray_sphere requires |d| = 1. it is not very important.
2181     */
2182 #if 0
2183    for( int i=0; i<3; i++ ){
2184       if( ray_sphere( tri[i], r, co, dir, &t1 ) ){
2185          t_min = vg_minf( t_min, t1 );
2186          hit = 1;
2187       }
2188    }
2189 #endif
2190
2191    for( int i=0; i<3; i++ ){
2192       int i0 =  i,
2193           i1 = (i+1)%3;
2194
2195       if( ray_uncapped_finite_cylinder( tri[i0], tri[i1], r, co, dir, &t1 ) ){
2196          if( t1 < t_min ){
2197             t_min = t1;
2198
2199             v3f co1, ct, cx;
2200             v3_add( dir, co, co1 );
2201             v3_lerp( co, co1, t_min, ct );
2202
2203             closest_point_segment( tri[i0], tri[i1], ct, cx );
2204             v3_sub( ct, cx, n );
2205             v3_normalize( n );
2206          }
2207
2208          hit = 1;
2209       }
2210    }
2211
2212    *t = t_min;
2213    return hit;
2214 }
2215
2216 /*
2217  * -----------------------------------------------------------------------------
2218  * Section 5.e                       Curves
2219  * -----------------------------------------------------------------------------
2220  */
2221
2222 static void eval_bezier_time( v3f p0, v3f p1, v3f h0, v3f h1, f32 t, v3f p )
2223 {
2224    f32 tt = t*t,
2225          ttt = tt*t;
2226
2227    v3_muls( p1, ttt, p );
2228    v3_muladds( p, h1, 3.0f*tt  -3.0f*ttt, p );
2229    v3_muladds( p, h0, 3.0f*ttt -6.0f*tt  +3.0f*t, p );
2230    v3_muladds( p, p0, 3.0f*tt  -ttt -3.0f*t +1.0f, p );
2231 }
2232
2233 static void eval_bezier3( v3f p0, v3f p1, v3f p2, f32 t, v3f p )
2234 {
2235    f32 u = 1.0f-t;
2236
2237    v3_muls( p0, u*u, p );
2238    v3_muladds( p, p1, 2.0f*u*t, p );
2239    v3_muladds( p, p2, t*t, p );
2240 }
2241
2242 /*
2243  * -----------------------------------------------------------------------------
2244  * Section 5.f                      Volumes
2245  * -----------------------------------------------------------------------------
2246  */
2247
2248 static float vg_sphere_volume( float radius ){
2249    float r3 = radius*radius*radius;
2250    return (4.0f/3.0f) * VG_PIf * r3;
2251 }
2252
2253 /*
2254  * -----------------------------------------------------------------------------
2255  * Section 6.a            PSRNG and some distributions
2256  * -----------------------------------------------------------------------------
2257  */
2258
2259 /* An implementation of the MT19937 Algorithm for the Mersenne Twister
2260  * by Evan Sultanik.  Based upon the pseudocode in: M. Matsumoto and
2261  * T. Nishimura, "Mersenne Twister: A 623-dimensionally
2262  * equidistributed uniform pseudorandom number generator," ACM
2263  * Transactions on Modeling and Computer Simulation Vol. 8, No. 1,
2264  * January pp.3-30 1998.
2265  *
2266  * http://www.sultanik.com/Mersenne_twister
2267  * https://github.com/ESultanik/mtwister/blob/master/mtwister.c
2268  */
2269
2270 #define MT_UPPER_MASK         0x80000000
2271 #define MT_LOWER_MASK         0x7fffffff
2272 #define MT_TEMPERING_MASK_B   0x9d2c5680
2273 #define MT_TEMPERING_MASK_C   0xefc60000
2274
2275 #define MT_STATE_VECTOR_LENGTH 624
2276
2277 /* changes to STATE_VECTOR_LENGTH also require changes to this */
2278 #define MT_STATE_VECTOR_M      397
2279
2280 typedef struct vg_rand vg_rand;
2281 struct vg_rand {
2282   u32 mt[MT_STATE_VECTOR_LENGTH];
2283   i32 index;
2284 };
2285
2286 static void vg_rand_seed( vg_rand *rand, unsigned long seed ) {
2287    /* set initial seeds to mt[STATE_VECTOR_LENGTH] using the generator
2288     * from Line 25 of Table 1 in: Donald Knuth, "The Art of Computer
2289     * Programming," Vol. 2 (2nd Ed.) pp.102.
2290     */
2291    rand->mt[0] = seed & 0xffffffff;
2292    for( rand->index=1; rand->index<MT_STATE_VECTOR_LENGTH; rand->index++){
2293       rand->mt[rand->index] = (6069 * rand->mt[rand->index-1]) & 0xffffffff;
2294    }
2295 }
2296
2297 /*
2298  * Generates a pseudo-randomly generated long.
2299  */
2300 static u32 vg_randu32( vg_rand *rand ) {
2301    u32 y;
2302    /* mag[x] = x * 0x9908b0df for x = 0,1 */
2303    static u32 mag[2] = {0x0, 0x9908b0df};
2304    if( rand->index >= MT_STATE_VECTOR_LENGTH || rand->index < 0 ){
2305       /* generate STATE_VECTOR_LENGTH words at a time */
2306       int kk;
2307       if( rand->index >= MT_STATE_VECTOR_LENGTH+1 || rand->index < 0 ){
2308          vg_rand_seed( rand, 4357 );
2309       }
2310       for( kk=0; kk<MT_STATE_VECTOR_LENGTH-MT_STATE_VECTOR_M; kk++ ){
2311          y = (rand->mt[kk] & MT_UPPER_MASK) |
2312              (rand->mt[kk+1] & MT_LOWER_MASK);
2313          rand->mt[kk] = rand->mt[kk+MT_STATE_VECTOR_M] ^ (y>>1) ^ mag[y & 0x1];
2314       }
2315       for( ; kk<MT_STATE_VECTOR_LENGTH-1; kk++ ){
2316          y = (rand->mt[kk] & MT_UPPER_MASK) |
2317              (rand->mt[kk+1] & MT_LOWER_MASK);
2318          rand->mt[kk] =
2319             rand->mt[ kk+(MT_STATE_VECTOR_M-MT_STATE_VECTOR_LENGTH)] ^
2320                         (y >> 1) ^ mag[y & 0x1];
2321       }
2322       y = (rand->mt[MT_STATE_VECTOR_LENGTH-1] & MT_UPPER_MASK) |
2323           (rand->mt[0] & MT_LOWER_MASK);
2324       rand->mt[MT_STATE_VECTOR_LENGTH-1] =
2325          rand->mt[MT_STATE_VECTOR_M-1] ^ (y >> 1) ^ mag[y & 0x1];
2326       rand->index = 0;
2327    }
2328    y = rand->mt[rand->index++];
2329    y ^= (y >> 11);
2330    y ^= (y << 7) & MT_TEMPERING_MASK_B;
2331    y ^= (y << 15) & MT_TEMPERING_MASK_C;
2332    y ^= (y >> 18);
2333    return y;
2334 }
2335
2336 /*
2337  * Generates a pseudo-randomly generated f64 in the range [0..1].
2338  */
2339 static inline f64 vg_randf64( vg_rand *rand ){
2340    return (f64)vg_randu32(rand)/(f64)0xffffffff;
2341 }
2342
2343 static inline f64 vg_randf64_range( vg_rand *rand, f64 min, f64 max ){
2344    return vg_lerp( min, max, (f64)vg_randf64(rand) );
2345 }
2346
2347 static inline void vg_rand_dir( vg_rand *rand, v3f dir ){
2348    dir[0] = vg_randf64(rand);
2349    dir[1] = vg_randf64(rand);
2350    dir[2] = vg_randf64(rand);
2351
2352    /* warning: *could* be 0 length.
2353     * very unlikely.. 1 in (2^32)^3. but its mathematically wrong. */
2354
2355    v3_muls( dir, 2.0f, dir );
2356    v3_sub( dir, (v3f){1.0f,1.0f,1.0f}, dir );
2357
2358    v3_normalize( dir );
2359 }
2360
2361 static inline void vg_rand_sphere( vg_rand *rand, v3f co ){
2362    vg_rand_dir(rand,co);
2363    v3_muls( co, cbrtf( vg_randf64(rand) ), co );
2364 }
2365
2366 static void vg_rand_disc( vg_rand *rand, v2f co ){
2367    f32 a = vg_randf64(rand) * VG_TAUf;
2368    co[0] = sinf(a);
2369    co[1] = cosf(a);
2370    v2_muls( co, sqrtf( vg_randf64(rand) ), co );
2371 }
2372
2373 static void vg_rand_cone( vg_rand *rand, v3f out_dir, f32 angle ){
2374    f32 r = sqrtf(vg_randf64(rand)) * angle * 0.5f,
2375        a = vg_randf64(rand) * VG_TAUf;
2376
2377    out_dir[0] = sinf(a) * sinf(r);
2378    out_dir[1] = cosf(a) * sinf(r);
2379    out_dir[2] = cosf(r);
2380 }
2381
2382 #endif /* VG_M_H */