vg_m.h

   1 /* Copyright (C) 2021-2023 Harry Godden (hgn) - All Rights Reserved
   2  *
   3  *  0. Misc
   4  *  1. Scalar operations
   5  *  2. Vectors
   6  *    2.a 2D Vectors
   7  *    2.b 3D Vectors
   8  *    2.c 4D Vectors
   9  *  3. Quaternions
  10  *  4. Matrices
  11  *    4.a 2x2 matrices
  12  *    4.b 3x3 matrices
  13  *    4.c 4x3 matrices
  14  *    4.d 4x4 matrices
  15  *  5. Geometry
  16  *    5.a Boxes
  17  *    5.b Planes
  18  *    5.c Closest points
  19  *    5.d Raycast & Spherecasts
  20  *    5.e Curves
  21  *    5.f Volumes
  22  *  6. Statistics
  23  *    6.a Random numbers
  24  **/
  25
  26 #ifndef VG_M_H
  27 #define VG_M_H
  28
  29 #include "vg_platform.h"
  30 #include <math.h>
  31 #include <stdlib.h>
  32
  33 #define VG_PIf  3.14159265358979323846264338327950288f
  34 #define VG_TAUf 6.28318530717958647692528676655900576f
  35
  36 /*
  37  * -----------------------------------------------------------------------------
  38  * Section 0.                    Misc Operations
  39  * -----------------------------------------------------------------------------
  40  */
  41
  42 /* get the f32 as the raw bits in a u32 without converting */
  43 static u32 vg_ftu32( f32 a )
  44 {
  45    u32 *ptr = (u32 *)(&a);
  46    return *ptr;
  47 }
  48
  49 /* check if f32 is infinite */
  50 static int vg_isinff( f32 a )
  51 {
  52    return ((vg_ftu32(a)) & 0x7FFFFFFFU) == 0x7F800000U;
  53 }
  54
  55 /* check if f32 is not a number */
  56 static int vg_isnanf( f32 a )
  57 {
  58    return !vg_isinff(a) && ((vg_ftu32(a)) & 0x7F800000U) == 0x7F800000U;
  59 }
  60
  61 /* check if f32 is a number and is not infinite */
  62 static int vg_validf( f32 a )
  63 {
  64    return ((vg_ftu32(a)) & 0x7F800000U) != 0x7F800000U;
  65 }
  66
  67 static int v3_valid( v3f a ){
  68    for( u32 i=0; i<3; i++ )
  69       if( !vg_validf(a[i]) ) return 0;
  70    return 1;
  71 }
  72
  73 /*
  74  * -----------------------------------------------------------------------------
  75  * Section 1.                   Scalar Operations
  76  * -----------------------------------------------------------------------------
  77  */
  78
  79 static inline f32 vg_minf( f32 a, f32 b ){ return a < b? a: b; }
  80 static inline f32 vg_maxf( f32 a, f32 b ){ return a > b? a: b; }
  81
  82 static inline int vg_min( int a, int b ){ return a < b? a: b; }
  83 static inline int vg_max( int a, int b ){ return a > b? a: b; }
  84
  85 static inline f32 vg_clampf( f32 a, f32 min, f32 max )
  86 {
  87    return vg_minf( max, vg_maxf( a, min ) );
  88 }
  89
  90 static inline f32 vg_signf( f32 a )
  91 {
  92    return a < 0.0f? -1.0f: 1.0f;
  93 }
  94
  95 static inline f32 vg_fractf( f32 a )
  96 {
  97    return a - floorf( a );
  98 }
  99
 100 static f32 vg_cfrictf( f32 velocity, f32 F )
 101 {
 102    return -vg_signf(velocity) * vg_minf( F, fabsf(velocity) );
 103 }
 104
 105 static inline f32 vg_rad( f32 deg )
 106 {
 107    return deg * VG_PIf / 180.0f;
 108 }
 109
 110 /*
 111  * quantize float to bit count
 112  */
 113 static u32 vg_quantf( f32 a, u32 bits, f32 min, f32 max ){
 114    u32 mask = (0x1 << bits) - 1;
 115    return vg_clampf((a - min) * ((f32)mask/(max-min)), 0.0f, mask );
 116 }
 117
 118 /*
 119  * un-quantize discreet to float
 120  */
 121 static f32 vg_dequantf( u32 q, u32 bits, f32 min, f32 max ){
 122    u32 mask = (0x1 << bits) - 1;
 123    return min + (f32)q * ((max-min) / (f32)mask);
 124 }
 125
 126 /*
 127  * -----------------------------------------------------------------------------
 128  * Section 2.a                   2D Vectors
 129  * -----------------------------------------------------------------------------
 130  */
 131
 132 static inline void v2_copy( v2f a, v2f d )
 133 {
 134    d[0] = a[0]; d[1] = a[1];
 135 }
 136
 137 static inline void v2_zero( v2f a )
 138 {
 139    a[0] = 0.f; a[1] = 0.f;
 140 }
 141
 142 static inline void v2_add( v2f a, v2f b, v2f d )
 143 {
 144    d[0] = a[0]+b[0]; d[1] = a[1]+b[1];
 145 }
 146
 147 static inline void v2_sub( v2f a, v2f b, v2f d )
 148 {
 149    d[0] = a[0]-b[0]; d[1] = a[1]-b[1];
 150 }
 151
 152 static inline void v2_minv( v2f a, v2f b, v2f dest )
 153 {
 154    dest[0] = vg_minf(a[0], b[0]);
 155    dest[1] = vg_minf(a[1], b[1]);
 156 }
 157
 158 static inline void v2_maxv( v2f a, v2f b, v2f dest )
 159 {
 160    dest[0] = vg_maxf(a[0], b[0]);
 161    dest[1] = vg_maxf(a[1], b[1]);
 162 }
 163
 164 static inline f32 v2_dot( v2f a, v2f b )
 165 {
 166    return a[0] * b[0] + a[1] * b[1];
 167 }
 168
 169 static inline f32 v2_cross( v2f a, v2f b )
 170 {
 171    return a[0]*b[1] - a[1]*b[0];
 172 }
 173
 174 static inline void v2_abs( v2f a, v2f d )
 175 {
 176    d[0] = fabsf( a[0] );
 177    d[1] = fabsf( a[1] );
 178 }
 179
 180 static inline void v2_muls( v2f a, f32 s, v2f d )
 181 {
 182    d[0] = a[0]*s; d[1] = a[1]*s;
 183 }
 184
 185 static inline void v2_divs( v2f a, f32 s, v2f d )
 186 {
 187    d[0] = a[0]/s; d[1] = a[1]/s;
 188 }
 189
 190 static inline void v2_mul( v2f a, v2f b, v2f d )
 191 {
 192    d[0] = a[0]*b[0];
 193    d[1] = a[1]*b[1];
 194 }
 195
 196 static inline void v2_div( v2f a, v2f b, v2f d )
 197 {
 198    d[0] = a[0]/b[0]; d[1] = a[1]/b[1];
 199 }
 200
 201 static inline void v2_muladd( v2f a, v2f b, v2f s, v2f d )
 202 {
 203    d[0] = a[0]+b[0]*s[0];
 204    d[1] = a[1]+b[1]*s[1];
 205 }
 206
 207 static inline void v2_muladds( v2f a, v2f b, f32 s, v2f d )
 208 {
 209    d[0] = a[0]+b[0]*s;
 210    d[1] = a[1]+b[1]*s;
 211 }
 212
 213 static inline f32 v2_length2( v2f a )
 214 {
 215    return a[0]*a[0] + a[1]*a[1];
 216 }
 217
 218 static inline f32 v2_length( v2f a )
 219 {
 220    return sqrtf( v2_length2( a ) );
 221 }
 222
 223 static inline f32 v2_dist2( v2f a, v2f b )
 224 {
 225    v2f delta;
 226    v2_sub( a, b, delta );
 227    return v2_length2( delta );
 228 }
 229
 230 static inline f32 v2_dist( v2f a, v2f b )
 231 {
 232    return sqrtf( v2_dist2( a, b ) );
 233 }
 234
 235 static inline void v2_lerp( v2f a, v2f b, f32 t, v2f d )
 236 {
 237    d[0] = a[0] + t*(b[0]-a[0]);
 238    d[1] = a[1] + t*(b[1]-a[1]);
 239 }
 240
 241 static inline void v2_normalize( v2f a )
 242 {
 243    v2_muls( a, 1.0f / v2_length( a ), a );
 244 }
 245
 246 static void v2_normalize_clamp( v2f a )
 247 {
 248    f32 l2 = v2_length2( a );
 249    if( l2 > 1.0f )
 250       v2_muls( a, 1.0f/sqrtf(l2), a );
 251 }
 252
 253 static inline void v2_floor( v2f a, v2f b )
 254 {
 255    b[0] = floorf( a[0] );
 256    b[1] = floorf( a[1] );
 257 }
 258
 259 static inline void v2_fill( v2f a, f32 v )
 260 {
 261    a[0] = v;
 262    a[1] = v;
 263 }
 264
 265 static inline void v2_copysign( v2f a, v2f b )
 266 {
 267    a[0] = copysignf( a[0], b[0] );
 268    a[1] = copysignf( a[1], b[1] );
 269 }
 270
 271 /* integer variants
 272  * ---------------- */
 273
 274 static inline void v2i_copy( v2i a, v2i b )
 275 {
 276    b[0] = a[0]; b[1] = a[1];
 277 }
 278
 279 static inline int v2i_eq( v2i a, v2i b )
 280 {
 281    return ((a[0] == b[0]) && (a[1] == b[1]));
 282 }
 283
 284 static inline void v2i_add( v2i a, v2i b, v2i d )
 285 {
 286    d[0] = a[0]+b[0]; d[1] = a[1]+b[1];
 287 }
 288
 289 static inline void v2i_sub( v2i a, v2i b, v2i d )
 290 {
 291    d[0] = a[0]-b[0]; d[1] = a[1]-b[1];
 292 }
 293
 294 /*
 295  * -----------------------------------------------------------------------------
 296  * Section 2.b                   3D Vectors
 297  * -----------------------------------------------------------------------------
 298  */
 299
 300 static inline void v3_copy( v3f a, v3f b )
 301 {
 302    b[0] = a[0]; b[1] = a[1]; b[2] = a[2];
 303 }
 304
 305 static inline void v3_zero( v3f a )
 306 {
 307    a[0] = 0.f; a[1] = 0.f; a[2] = 0.f;
 308 }
 309
 310 static inline void v3_add( v3f a, v3f b, v3f d )
 311 {
 312    d[0] = a[0]+b[0]; d[1] = a[1]+b[1]; d[2] = a[2]+b[2];
 313 }
 314
 315 static inline void v3i_add( v3i a, v3i b, v3i d )
 316 {
 317    d[0] = a[0]+b[0]; d[1] = a[1]+b[1]; d[2] = a[2]+b[2];
 318 }
 319
 320 static inline void v3_sub( v3f a, v3f b, v3f d )
 321 {
 322    d[0] = a[0]-b[0]; d[1] = a[1]-b[1]; d[2] = a[2]-b[2];
 323 }
 324
 325 static inline void v3i_sub( v3i a, v3i b, v3i d )
 326 {
 327    d[0] = a[0]-b[0]; d[1] = a[1]-b[1]; d[2] = a[2]-b[2];
 328 }
 329
 330 static inline void v3_mul( v3f a, v3f b, v3f d )
 331 {
 332    d[0] = a[0]*b[0]; d[1] = a[1]*b[1]; d[2] = a[2]*b[2];
 333 }
 334
 335 static inline void v3_div( v3f a, v3f b, v3f d )
 336 {
 337    d[0] = b[0]!=0.0f? a[0]/b[0]: INFINITY;
 338    d[1] = b[1]!=0.0f? a[1]/b[1]: INFINITY;
 339    d[2] = b[2]!=0.0f? a[2]/b[2]: INFINITY;
 340 }
 341
 342 static inline void v3_muls( v3f a, f32 s, v3f d )
 343 {
 344    d[0] = a[0]*s; d[1] = a[1]*s; d[2] = a[2]*s;
 345 }
 346
 347 static inline void v3_fill( v3f a, f32 v )
 348 {
 349    a[0] = v;
 350    a[1] = v;
 351    a[2] = v;
 352 }
 353
 354 static inline void v3_divs( v3f a, f32 s, v3f d )
 355 {
 356    if( s == 0.0f )
 357       v3_fill( d, INFINITY );
 358    else
 359    {
 360       d[0] = a[0]/s;
 361       d[1] = a[1]/s;
 362       d[2] = a[2]/s;
 363    }
 364 }
 365
 366 static inline void v3_muladds( v3f a, v3f b, f32 s, v3f d )
 367 {
 368    d[0] = a[0]+b[0]*s; d[1] = a[1]+b[1]*s; d[2] = a[2]+b[2]*s;
 369 }
 370
 371 static inline void v3_muladd( v2f a, v2f b, v2f s, v2f d )
 372 {
 373    d[0] = a[0]+b[0]*s[0];
 374    d[1] = a[1]+b[1]*s[1];
 375    d[2] = a[2]+b[2]*s[2];
 376 }
 377
 378 static inline f32 v3_dot( v3f a, v3f b )
 379 {
 380    return a[0] * b[0] + a[1] * b[1] + a[2] * b[2];
 381 }
 382
 383 static inline void v3_cross( v3f a, v3f b, v3f dest )
 384 {
 385    v3f d;
 386    d[0] = a[1]*b[2] - a[2]*b[1];
 387    d[1] = a[2]*b[0] - a[0]*b[2];
 388    d[2] = a[0]*b[1] - a[1]*b[0];
 389    v3_copy( d, dest );
 390 }
 391
 392 static inline f32 v3_length2( v3f a )
 393 {
 394    return v3_dot( a, a );
 395 }
 396
 397 static inline f32 v3_length( v3f a )
 398 {
 399    return sqrtf( v3_length2( a ) );
 400 }
 401
 402 static inline f32 v3_dist2( v3f a, v3f b )
 403 {
 404    v3f delta;
 405    v3_sub( a, b, delta );
 406    return v3_length2( delta );
 407 }
 408
 409 static inline f32 v3_dist( v3f a, v3f b )
 410 {
 411    return sqrtf( v3_dist2( a, b ) );
 412 }
 413
 414 static inline void v3_normalize( v3f a )
 415 {
 416    v3_muls( a, 1.f / v3_length( a ), a );
 417 }
 418
 419 static inline f32 vg_lerpf( f32 a, f32 b, f32 t ){
 420    return a + t*(b-a);
 421 }
 422
 423 static inline f64 vg_lerp( f64 a, f64 b, f64 t )
 424 {
 425    return a + t*(b-a);
 426 }
 427
 428 static inline void vg_slewf( f32 *a, f32 b, f32 speed ){
 429    f32 d = vg_signf( b-*a ),
 430        c = *a + d*speed;
 431    *a = vg_minf( b*d, c*d ) * d;
 432 }
 433
 434 static inline f32 vg_smoothstepf( f32 x ){
 435    return x*x*(3.0f - 2.0f*x);
 436 }
 437
 438
 439 /* correctly lerp around circular period -pi -> pi */
 440 static f32 vg_alerpf( f32 a, f32 b, f32 t )
 441 {
 442    f32 d = fmodf( b-a, VG_TAUf ),
 443          s = fmodf( 2.0f*d, VG_TAUf ) - d;
 444    return a + s*t;
 445 }
 446
 447 static inline void v3_lerp( v3f a, v3f b, f32 t, v3f d )
 448 {
 449    d[0] = a[0] + t*(b[0]-a[0]);
 450    d[1] = a[1] + t*(b[1]-a[1]);
 451    d[2] = a[2] + t*(b[2]-a[2]);
 452 }
 453
 454 static inline void v3_minv( v3f a, v3f b, v3f dest )
 455 {
 456    dest[0] = vg_minf(a[0], b[0]);
 457    dest[1] = vg_minf(a[1], b[1]);
 458    dest[2] = vg_minf(a[2], b[2]);
 459 }
 460
 461 static inline void v3_maxv( v3f a, v3f b, v3f dest )
 462 {
 463    dest[0] = vg_maxf(a[0], b[0]);
 464    dest[1] = vg_maxf(a[1], b[1]);
 465    dest[2] = vg_maxf(a[2], b[2]);
 466 }
 467
 468 static inline f32 v3_minf( v3f a )
 469 {
 470    return vg_minf( vg_minf( a[0], a[1] ), a[2] );
 471 }
 472
 473 static inline f32 v3_maxf( v3f a )
 474 {
 475    return vg_maxf( vg_maxf( a[0], a[1] ), a[2] );
 476 }
 477
 478 static inline void v3_floor( v3f a, v3f b )
 479 {
 480    b[0] = floorf( a[0] );
 481    b[1] = floorf( a[1] );
 482    b[2] = floorf( a[2] );
 483 }
 484
 485 static inline void v3_ceil( v3f a, v3f b )
 486 {
 487    b[0] = ceilf( a[0] );
 488    b[1] = ceilf( a[1] );
 489    b[2] = ceilf( a[2] );
 490 }
 491
 492 static inline void v3_negate( v3f a, v3f b )
 493 {
 494    b[0] = -a[0];
 495    b[1] = -a[1];
 496    b[2] = -a[2];
 497 }
 498
 499 static inline void v3_rotate( v3f v, f32 angle, v3f axis, v3f d )
 500 {
 501   v3f v1, v2, k;
 502   f32 c, s;
 503
 504   c = cosf( angle );
 505   s = sinf( angle );
 506
 507   v3_copy( axis, k );
 508   v3_normalize( k );
 509   v3_muls( v, c, v1 );
 510   v3_cross( k, v, v2 );
 511   v3_muls( v2, s, v2 );
 512   v3_add( v1, v2, v1 );
 513   v3_muls( k, v3_dot(k, v) * (1.0f - c), v2);
 514   v3_add( v1, v2, d );
 515 }
 516
 517 static void v3_tangent_basis( v3f n, v3f tx, v3f ty ){
 518    /* Compute tangent basis (box2d) */
 519    if( fabsf( n[0] ) >= 0.57735027f ){
 520       tx[0] =  n[1];
 521       tx[1] = -n[0];
 522       tx[2] =  0.0f;
 523    }
 524    else{
 525       tx[0] =  0.0f;
 526       tx[1] =  n[2];
 527       tx[2] = -n[1];
 528    }
 529
 530    v3_normalize( tx );
 531    v3_cross( n, tx, ty );
 532 }
 533
 534
 535 /*
 536  * -----------------------------------------------------------------------------
 537  * Section 2.c                   4D Vectors
 538  * -----------------------------------------------------------------------------
 539  */
 540
 541 static inline void v4_copy( v4f a, v4f b )
 542 {
 543    b[0] = a[0]; b[1] = a[1]; b[2] = a[2]; b[3] = a[3];
 544 }
 545
 546 static inline void v4_add( v4f a, v4f b, v4f d )
 547 {
 548    d[0] = a[0]+b[0];
 549    d[1] = a[1]+b[1];
 550    d[2] = a[2]+b[2];
 551    d[3] = a[3]+b[3];
 552 }
 553
 554 static inline void v4_zero( v4f a )
 555 {
 556    a[0] = 0.f; a[1] = 0.f; a[2] = 0.f; a[3] = 0.f;
 557 }
 558
 559 static inline void v4_muls( v4f a, f32 s, v4f d )
 560 {
 561    d[0] = a[0]*s;
 562    d[1] = a[1]*s;
 563    d[2] = a[2]*s;
 564    d[3] = a[3]*s;
 565 }
 566
 567 static inline void v4_muladds( v4f a, v4f b, f32 s, v4f d )
 568 {
 569    d[0] = a[0]+b[0]*s;
 570    d[1] = a[1]+b[1]*s;
 571    d[2] = a[2]+b[2]*s;
 572    d[3] = a[3]+b[3]*s;
 573 }
 574
 575 static inline void v4_lerp( v4f a, v4f b, f32 t, v4f d )
 576 {
 577    d[0] = a[0] + t*(b[0]-a[0]);
 578    d[1] = a[1] + t*(b[1]-a[1]);
 579    d[2] = a[2] + t*(b[2]-a[2]);
 580    d[3] = a[3] + t*(b[3]-a[3]);
 581 }
 582
 583 static inline f32 v4_dot( v4f a, v4f b )
 584 {
 585    return a[0]*b[0] + a[1]*b[1] + a[2]*b[2] + a[3]*b[3];
 586 }
 587
 588 static inline f32 v4_length( v4f a )
 589 {
 590    return sqrtf( v4_dot(a,a) );
 591 }
 592
 593 /*
 594  * -----------------------------------------------------------------------------
 595  * Section 3                   Quaternions
 596  * -----------------------------------------------------------------------------
 597  */
 598
 599 static inline void q_identity( v4f q )
 600 {
 601    q[0] = 0.0f; q[1] = 0.0f; q[2] = 0.0f; q[3] = 1.0f;
 602 }
 603
 604 static inline void q_axis_angle( v4f q, v3f axis, f32 angle )
 605 {
 606    f32 a = angle*0.5f,
 607          c = cosf(a),
 608          s = sinf(a);
 609
 610    q[0] = s*axis[0];
 611    q[1] = s*axis[1];
 612    q[2] = s*axis[2];
 613    q[3] = c;
 614 }
 615
 616 static inline void q_mul( v4f q, v4f q1, v4f d )
 617 {
 618    v4f t;
 619    t[0] = q[3]*q1[0] + q[0]*q1[3] + q[1]*q1[2] - q[2]*q1[1];
 620    t[1] = q[3]*q1[1] - q[0]*q1[2] + q[1]*q1[3] + q[2]*q1[0];
 621    t[2] = q[3]*q1[2] + q[0]*q1[1] - q[1]*q1[0] + q[2]*q1[3];
 622    t[3] = q[3]*q1[3] - q[0]*q1[0] - q[1]*q1[1] - q[2]*q1[2];
 623    v4_copy( t, d );
 624 }
 625
 626 static inline void q_normalize( v4f q )
 627 {
 628    f32 l2 = v4_dot(q,q);
 629    if( l2 < 0.00001f ) q_identity( q );
 630    else {
 631       f32 s = 1.0f/sqrtf(l2);
 632       q[0] *= s;
 633       q[1] *= s;
 634       q[2] *= s;
 635       q[3] *= s;
 636    }
 637 }
 638
 639 static inline void q_inv( v4f q, v4f d )
 640 {
 641    f32 s = 1.0f / v4_dot(q,q);
 642    d[0] = -q[0]*s;
 643    d[1] = -q[1]*s;
 644    d[2] = -q[2]*s;
 645    d[3] =  q[3]*s;
 646 }
 647
 648 static inline void q_nlerp( v4f a, v4f b, f32 t, v4f d ){
 649    if( v4_dot(a,b) < 0.0f ){
 650       v4f c;
 651       v4_muls( b, -1.0f, c );
 652       v4_lerp( a, c, t, d );
 653    }
 654    else
 655       v4_lerp( a, b, t, d );
 656
 657    q_normalize( d );
 658 }
 659
 660 static inline void q_m3x3( v4f q, m3x3f d )
 661 {
 662    f32
 663       l = v4_length(q),
 664       s = l > 0.0f? 2.0f/l: 0.0f,
 665
 666       xx = s*q[0]*q[0], xy = s*q[0]*q[1], wx = s*q[3]*q[0],
 667       yy = s*q[1]*q[1], yz = s*q[1]*q[2], wy = s*q[3]*q[1],
 668       zz = s*q[2]*q[2], xz = s*q[0]*q[2], wz = s*q[3]*q[2];
 669
 670    d[0][0] = 1.0f - yy - zz;
 671    d[1][1] = 1.0f - xx - zz;
 672    d[2][2] = 1.0f - xx - yy;
 673    d[0][1] = xy + wz;
 674    d[1][2] = yz + wx;
 675    d[2][0] = xz + wy;
 676    d[1][0] = xy - wz;
 677    d[2][1] = yz - wx;
 678    d[0][2] = xz - wy;
 679 }
 680
 681 static void q_mulv( v4f q, v3f v, v3f d )
 682 {
 683    v3f v1, v2;
 684
 685    v3_muls( q, 2.0f*v3_dot(q,v), v1 );
 686    v3_muls( v, q[3]*q[3] - v3_dot(q,q), v2 );
 687    v3_add( v1, v2, v1 );
 688    v3_cross( q, v, v2 );
 689    v3_muls( v2, 2.0f*q[3], v2 );
 690    v3_add( v1, v2, d );
 691 }
 692
 693 /*
 694  * -----------------------------------------------------------------------------
 695  * Section 4.a                  2x2 matrices
 696  * -----------------------------------------------------------------------------
 697  */
 698
 699 #define M2X2_INDENTIY {{1.0f, 0.0f, }, \
 700                        {0.0f, 1.0f, }}
 701
 702 #define M2X2_ZERO     {{0.0f, 0.0f, }, \
 703                        {0.0f, 0.0f, }}
 704
 705 static inline void m2x2_copy( m2x2f a, m2x2f b )
 706 {
 707    v2_copy( a[0], b[0] );
 708    v2_copy( a[1], b[1] );
 709 }
 710
 711 static inline void m2x2_identity( m2x2f a )
 712 {
 713    m2x2f id = M2X2_INDENTIY;
 714    m2x2_copy( id, a );
 715 }
 716
 717 static inline void m2x2_create_rotation( m2x2f a, f32 theta )
 718 {
 719    f32 s, c;
 720
 721    s = sinf( theta );
 722    c = cosf( theta );
 723
 724    a[0][0] =  c;
 725    a[0][1] = -s;
 726    a[1][0] =  s;
 727    a[1][1] =  c;
 728 }
 729
 730 static inline void m2x2_mulv( m2x2f m, v2f v, v2f d )
 731 {
 732    v2f res;
 733
 734    res[0] = m[0][0]*v[0] + m[1][0]*v[1];
 735    res[1] = m[0][1]*v[0] + m[1][1]*v[1];
 736
 737    v2_copy( res, d );
 738 }
 739
 740 /*
 741  * -----------------------------------------------------------------------------
 742  * Section 4.b                  3x3 matrices
 743  * -----------------------------------------------------------------------------
 744  */
 745
 746 #define M3X3_IDENTITY   {{1.0f, 0.0f, 0.0f, },\
 747                         { 0.0f, 1.0f, 0.0f, },\
 748                         { 0.0f, 0.0f, 1.0f, }}
 749
 750 #define M3X3_ZERO       {{0.0f, 0.0f, 0.0f, },\
 751                         { 0.0f, 0.0f, 0.0f, },\
 752                         { 0.0f, 0.0f, 0.0f, }}
 753
 754
 755 static void euler_m3x3( v3f angles, m3x3f d )
 756 {
 757    f32 cosY = cosf( angles[0] ),
 758        sinY = sinf( angles[0] ),
 759        cosP = cosf( angles[1] ),
 760        sinP = sinf( angles[1] ),
 761        cosR = cosf( angles[2] ),
 762        sinR = sinf( angles[2] );
 763
 764    d[2][0] = -sinY * cosP;
 765    d[2][1] =  sinP;
 766    d[2][2] =  cosY * cosP;
 767
 768    d[0][0] =  cosY * cosR;
 769    d[0][1] =  sinR;
 770    d[0][2] =  sinY * cosR;
 771
 772    v3_cross( d[0], d[2], d[1] );
 773 }
 774
 775 static void m3x3_q( m3x3f m, v4f q )
 776 {
 777    f32 diag, r, rinv;
 778
 779    diag = m[0][0] + m[1][1] + m[2][2];
 780    if( diag >= 0.0f )
 781    {
 782       r    = sqrtf( 1.0f + diag );
 783       rinv = 0.5f / r;
 784       q[0] = rinv * (m[1][2] - m[2][1]);
 785       q[1] = rinv * (m[2][0] - m[0][2]);
 786       q[2] = rinv * (m[0][1] - m[1][0]);
 787       q[3] = r    * 0.5f;
 788    }
 789    else if( m[0][0] >= m[1][1] && m[0][0] >= m[2][2] )
 790    {
 791       r    = sqrtf( 1.0f - m[1][1] - m[2][2] + m[0][0] );
 792       rinv = 0.5f / r;
 793       q[0] = r    * 0.5f;
 794       q[1] = rinv * (m[0][1] + m[1][0]);
 795       q[2] = rinv * (m[0][2] + m[2][0]);
 796       q[3] = rinv * (m[1][2] - m[2][1]);
 797    }
 798    else if( m[1][1] >= m[2][2] )
 799    {
 800       r    = sqrtf( 1.0f - m[0][0] - m[2][2] + m[1][1] );
 801       rinv = 0.5f / r;
 802       q[0] = rinv * (m[0][1] + m[1][0]);
 803       q[1] = r    * 0.5f;
 804       q[2] = rinv * (m[1][2] + m[2][1]);
 805       q[3] = rinv * (m[2][0] - m[0][2]);
 806    }
 807    else
 808    {
 809       r    = sqrtf( 1.0f - m[0][0] - m[1][1] + m[2][2] );
 810       rinv = 0.5f / r;
 811       q[0] = rinv * (m[0][2] + m[2][0]);
 812       q[1] = rinv * (m[1][2] + m[2][1]);
 813       q[2] = r    * 0.5f;
 814       q[3] = rinv * (m[0][1] - m[1][0]);
 815    }
 816 }
 817
 818 /* a X b == [b]T a == ...*/
 819 static void m3x3_skew_symetric( m3x3f a, v3f v )
 820 {
 821    a[0][0] =  0.0f;
 822    a[0][1] =  v[2];
 823    a[0][2] = -v[1];
 824    a[1][0] = -v[2];
 825    a[1][1] =  0.0f;
 826    a[1][2] =  v[0];
 827    a[2][0] =  v[1];
 828    a[2][1] = -v[0];
 829    a[2][2] =  0.0f;
 830 }
 831
 832 static void m3x3_add( m3x3f a, m3x3f b, m3x3f d )
 833 {
 834    v3_add( a[0], b[0], d[0] );
 835    v3_add( a[1], b[1], d[1] );
 836    v3_add( a[2], b[2], d[2] );
 837 }
 838
 839 static inline void m3x3_copy( m3x3f a, m3x3f b )
 840 {
 841    v3_copy( a[0], b[0] );
 842    v3_copy( a[1], b[1] );
 843    v3_copy( a[2], b[2] );
 844 }
 845
 846 static inline void m3x3_identity( m3x3f a )
 847 {
 848    m3x3f id = M3X3_IDENTITY;
 849    m3x3_copy( id, a );
 850 }
 851
 852 static void m3x3_diagonal( m3x3f a, f32 v )
 853 {
 854    m3x3_identity( a );
 855    a[0][0] = v;
 856    a[1][1] = v;
 857    a[2][2] = v;
 858 }
 859
 860 static void m3x3_setdiagonalv3( m3x3f a, v3f v )
 861 {
 862    a[0][0] = v[0];
 863    a[1][1] = v[1];
 864    a[2][2] = v[2];
 865 }
 866
 867 static inline void m3x3_zero( m3x3f a )
 868 {
 869    m3x3f z = M3X3_ZERO;
 870    m3x3_copy( z, a );
 871 }
 872
 873 static inline void m3x3_inv( m3x3f src, m3x3f dest )
 874 {
 875    f32 a = src[0][0], b = src[0][1], c = src[0][2],
 876          d = src[1][0], e = src[1][1], f = src[1][2],
 877          g = src[2][0], h = src[2][1], i = src[2][2];
 878
 879    f32 det =    1.f /
 880                (+a*(e*i-h*f)
 881                 -b*(d*i-f*g)
 882                 +c*(d*h-e*g));
 883
 884    dest[0][0] =  (e*i-h*f)*det;
 885    dest[0][1] = -(b*i-c*h)*det;
 886    dest[0][2] =  (b*f-c*e)*det;
 887    dest[1][0] = -(d*i-f*g)*det;
 888    dest[1][1] =  (a*i-c*g)*det;
 889    dest[1][2] = -(a*f-d*c)*det;
 890    dest[2][0] =  (d*h-g*e)*det;
 891    dest[2][1] = -(a*h-g*b)*det;
 892    dest[2][2] =  (a*e-d*b)*det;
 893 }
 894
 895 static f32 m3x3_det( m3x3f m )
 896 {
 897    return   m[0][0] * (m[1][1] * m[2][2] - m[2][1] * m[1][2])
 898           - m[0][1] * (m[1][0] * m[2][2] - m[1][2] * m[2][0])
 899           + m[0][2] * (m[1][0] * m[2][1] - m[1][1] * m[2][0]);
 900 }
 901
 902 static inline void m3x3_transpose( m3x3f src, m3x3f dest )
 903 {
 904    f32 a = src[0][0], b = src[0][1], c = src[0][2],
 905          d = src[1][0], e = src[1][1], f = src[1][2],
 906          g = src[2][0], h = src[2][1], i = src[2][2];
 907
 908    dest[0][0] = a;
 909    dest[0][1] = d;
 910    dest[0][2] = g;
 911    dest[1][0] = b;
 912    dest[1][1] = e;
 913    dest[1][2] = h;
 914    dest[2][0] = c;
 915    dest[2][1] = f;
 916    dest[2][2] = i;
 917 }
 918
 919 static inline void m3x3_mul( m3x3f a, m3x3f b, m3x3f d )
 920 {
 921    f32 a00 = a[0][0], a01 = a[0][1], a02 = a[0][2],
 922          a10 = a[1][0], a11 = a[1][1], a12 = a[1][2],
 923          a20 = a[2][0], a21 = a[2][1], a22 = a[2][2],
 924
 925          b00 = b[0][0], b01 = b[0][1], b02 = b[0][2],
 926          b10 = b[1][0], b11 = b[1][1], b12 = b[1][2],
 927          b20 = b[2][0], b21 = b[2][1], b22 = b[2][2];
 928
 929    d[0][0] = a00*b00 + a10*b01 + a20*b02;
 930    d[0][1] = a01*b00 + a11*b01 + a21*b02;
 931    d[0][2] = a02*b00 + a12*b01 + a22*b02;
 932    d[1][0] = a00*b10 + a10*b11 + a20*b12;
 933    d[1][1] = a01*b10 + a11*b11 + a21*b12;
 934    d[1][2] = a02*b10 + a12*b11 + a22*b12;
 935    d[2][0] = a00*b20 + a10*b21 + a20*b22;
 936    d[2][1] = a01*b20 + a11*b21 + a21*b22;
 937    d[2][2] = a02*b20 + a12*b21 + a22*b22;
 938 }
 939
 940 static inline void m3x3_mulv( m3x3f m, v3f v, v3f d )
 941 {
 942    v3f res;
 943
 944    res[0] = m[0][0]*v[0] + m[1][0]*v[1] + m[2][0]*v[2];
 945    res[1] = m[0][1]*v[0] + m[1][1]*v[1] + m[2][1]*v[2];
 946    res[2] = m[0][2]*v[0] + m[1][2]*v[1] + m[2][2]*v[2];
 947
 948    v3_copy( res, d );
 949 }
 950
 951 static inline void m3x3_projection( m3x3f dst,
 952       f32 const left, f32 const right, f32 const bottom, f32 const top )
 953 {
 954    f32 rl, tb;
 955
 956    m3x3_zero( dst );
 957
 958    rl = 1.0f / (right - left);
 959    tb = 1.0f / (top   - bottom);
 960
 961    dst[0][0] = 2.0f * rl;
 962    dst[1][1] = 2.0f * tb;
 963    dst[2][2] = 1.0f;
 964 }
 965
 966 static inline void m3x3_translate( m3x3f m, v3f v )
 967 {
 968    m[2][0] = m[0][0] * v[0] + m[1][0] * v[1] + m[2][0];
 969    m[2][1] = m[0][1] * v[0] + m[1][1] * v[1] + m[2][1];
 970    m[2][2] = m[0][2] * v[0] + m[1][2] * v[1] + m[2][2];
 971 }
 972
 973 static inline void m3x3_scale( m3x3f m, v3f v )
 974 {
 975    v3_muls( m[0], v[0], m[0] );
 976    v3_muls( m[1], v[1], m[1] );
 977    v3_muls( m[2], v[2], m[2] );
 978 }
 979
 980 static inline void m3x3_scalef( m3x3f m, f32 f )
 981 {
 982    v3f v;
 983    v3_fill( v, f );
 984    m3x3_scale( m, v );
 985 }
 986
 987 static inline void m3x3_rotate( m3x3f m, f32 angle )
 988 {
 989    f32 m00 = m[0][0], m10 = m[1][0],
 990          m01 = m[0][1], m11 = m[1][1],
 991          m02 = m[0][2], m12 = m[1][2];
 992    f32 c, s;
 993
 994    s = sinf( angle );
 995    c = cosf( angle );
 996
 997    m[0][0] = m00 * c + m10 * s;
 998    m[0][1] = m01 * c + m11 * s;
 999    m[0][2] = m02 * c + m12 * s;
1000
1001    m[1][0] = m00 * -s + m10 * c;
1002    m[1][1] = m01 * -s + m11 * c;
1003    m[1][2] = m02 * -s + m12 * c;
1004 }
1005
1006 /*
1007  * -----------------------------------------------------------------------------
1008  * Section 4.c                  4x3 matrices
1009  * -----------------------------------------------------------------------------
1010  */
1011
1012 #define M4X3_IDENTITY   {{1.0f, 0.0f, 0.0f, },\
1013                         { 0.0f, 1.0f, 0.0f, },\
1014                         { 0.0f, 0.0f, 1.0f, },\
1015                         { 0.0f, 0.0f, 0.0f }}
1016
1017 static inline void m4x3_to_3x3( m4x3f a, m3x3f b )
1018 {
1019    v3_copy( a[0], b[0] );
1020    v3_copy( a[1], b[1] );
1021    v3_copy( a[2], b[2] );
1022 }
1023
1024 static inline void m4x3_invert_affine( m4x3f a, m4x3f b )
1025 {
1026    m3x3_transpose( a, b );
1027    m3x3_mulv( b, a[3], b[3] );
1028    v3_negate( b[3], b[3] );
1029 }
1030
1031 static void m4x3_invert_full( m4x3f src, m4x3f dst )
1032 {
1033   f32 t2, t4, t5,
1034         det,
1035         a = src[0][0], b = src[0][1], c = src[0][2],
1036         e = src[1][0], f = src[1][1], g = src[1][2],
1037         i = src[2][0], j = src[2][1], k = src[2][2],
1038         m = src[3][0], n = src[3][1], o = src[3][2];
1039
1040    t2 = j*o - n*k;
1041    t4 = i*o - m*k;
1042    t5 = i*n - m*j;
1043
1044    dst[0][0] =  f*k - g*j;
1045    dst[1][0] =-(e*k - g*i);
1046    dst[2][0] =  e*j - f*i;
1047    dst[3][0] =-(e*t2 - f*t4 + g*t5);
1048
1049    dst[0][1] =-(b*k - c*j);
1050    dst[1][1] =  a*k - c*i;
1051    dst[2][1] =-(a*j - b*i);
1052    dst[3][1] =  a*t2 - b*t4 + c*t5;
1053
1054    t2 = f*o - n*g;
1055    t4 = e*o - m*g;
1056    t5 = e*n - m*f;
1057
1058    dst[0][2] =  b*g - c*f ;
1059    dst[1][2] =-(a*g - c*e );
1060    dst[2][2] =  a*f - b*e ;
1061    dst[3][2] =-(a*t2 - b*t4 + c * t5);
1062
1063    det = 1.0f / (a * dst[0][0] + b * dst[1][0] + c * dst[2][0]);
1064    v3_muls( dst[0], det, dst[0] );
1065    v3_muls( dst[1], det, dst[1] );
1066    v3_muls( dst[2], det, dst[2] );
1067    v3_muls( dst[3], det, dst[3] );
1068 }
1069
1070 static inline void m4x3_copy( m4x3f a, m4x3f b )
1071 {
1072    v3_copy( a[0], b[0] );
1073    v3_copy( a[1], b[1] );
1074    v3_copy( a[2], b[2] );
1075    v3_copy( a[3], b[3] );
1076 }
1077
1078 static inline void m4x3_identity( m4x3f a )
1079 {
1080    m4x3f id = M4X3_IDENTITY;
1081    m4x3_copy( id, a );
1082 }
1083
1084 static void m4x3_mul( m4x3f a, m4x3f b, m4x3f d )
1085 {
1086    f32
1087    a00 = a[0][0], a01 = a[0][1], a02 = a[0][2],
1088    a10 = a[1][0], a11 = a[1][1], a12 = a[1][2],
1089    a20 = a[2][0], a21 = a[2][1], a22 = a[2][2],
1090    a30 = a[3][0], a31 = a[3][1], a32 = a[3][2],
1091    b00 = b[0][0], b01 = b[0][1], b02 = b[0][2],
1092    b10 = b[1][0], b11 = b[1][1], b12 = b[1][2],
1093    b20 = b[2][0], b21 = b[2][1], b22 = b[2][2],
1094    b30 = b[3][0], b31 = b[3][1], b32 = b[3][2];
1095
1096    d[0][0] = a00*b00 + a10*b01 + a20*b02;
1097    d[0][1] = a01*b00 + a11*b01 + a21*b02;
1098    d[0][2] = a02*b00 + a12*b01 + a22*b02;
1099    d[1][0] = a00*b10 + a10*b11 + a20*b12;
1100    d[1][1] = a01*b10 + a11*b11 + a21*b12;
1101    d[1][2] = a02*b10 + a12*b11 + a22*b12;
1102    d[2][0] = a00*b20 + a10*b21 + a20*b22;
1103    d[2][1] = a01*b20 + a11*b21 + a21*b22;
1104    d[2][2] = a02*b20 + a12*b21 + a22*b22;
1105    d[3][0] = a00*b30 + a10*b31 + a20*b32 + a30;
1106    d[3][1] = a01*b30 + a11*b31 + a21*b32 + a31;
1107    d[3][2] = a02*b30 + a12*b31 + a22*b32 + a32;
1108 }
1109
1110 #if 0 /* shat appf mingw wstringop-overflow */
1111 inline
1112 #endif
1113 static void m4x3_mulv( m4x3f m, v3f v, v3f d )
1114 {
1115    v3f res;
1116
1117    res[0] = m[0][0]*v[0] + m[1][0]*v[1] + m[2][0]*v[2] + m[3][0];
1118    res[1] = m[0][1]*v[0] + m[1][1]*v[1] + m[2][1]*v[2] + m[3][1];
1119    res[2] = m[0][2]*v[0] + m[1][2]*v[1] + m[2][2]*v[2] + m[3][2];
1120
1121    v3_copy( res, d );
1122 }
1123
1124 /*
1125  * Transform plane ( xyz, distance )
1126  */
1127 static void m4x3_mulp( m4x3f m, v4f p, v4f d )
1128 {
1129    v3f o;
1130
1131    v3_muls( p, p[3], o );
1132    m4x3_mulv( m, o, o );
1133    m3x3_mulv( m, p, d );
1134
1135    d[3] = v3_dot( o, d );
1136 }
1137
1138 /*
1139  * Affine transforms
1140  */
1141
1142 static void m4x3_translate( m4x3f m, v3f v )
1143 {
1144    v3_muladds( m[3], m[0], v[0], m[3] );
1145    v3_muladds( m[3], m[1], v[1], m[3] );
1146    v3_muladds( m[3], m[2], v[2], m[3] );
1147 }
1148
1149 static void m4x3_rotate_x( m4x3f m, f32 angle )
1150 {
1151    m4x3f t = M4X3_IDENTITY;
1152    f32 c, s;
1153
1154    c = cosf( angle );
1155    s = sinf( angle );
1156
1157    t[1][1] =  c;
1158    t[1][2] =  s;
1159    t[2][1] = -s;
1160    t[2][2] =  c;
1161
1162    m4x3_mul( m, t, m );
1163 }
1164
1165 static void m4x3_rotate_y( m4x3f m, f32 angle )
1166 {
1167    m4x3f t = M4X3_IDENTITY;
1168    f32 c, s;
1169
1170    c = cosf( angle );
1171    s = sinf( angle );
1172
1173    t[0][0] =  c;
1174    t[0][2] = -s;
1175    t[2][0] =  s;
1176    t[2][2] =  c;
1177
1178    m4x3_mul( m, t, m );
1179 }
1180
1181 static void m4x3_rotate_z( m4x3f m, f32 angle )
1182 {
1183    m4x3f t = M4X3_IDENTITY;
1184    f32 c, s;
1185
1186    c = cosf( angle );
1187    s = sinf( angle );
1188
1189    t[0][0] =  c;
1190    t[0][1] =  s;
1191    t[1][0] = -s;
1192    t[1][1] =  c;
1193
1194    m4x3_mul( m, t, m );
1195 }
1196
1197 static void m4x3_expand( m4x3f m, m4x4f d )
1198 {
1199    v3_copy( m[0], d[0] );
1200    v3_copy( m[1], d[1] );
1201    v3_copy( m[2], d[2] );
1202    v3_copy( m[3], d[3] );
1203    d[0][3] = 0.0f;
1204    d[1][3] = 0.0f;
1205    d[2][3] = 0.0f;
1206    d[3][3] = 1.0f;
1207 }
1208
1209 static void m4x3_decompose( m4x3f m, v3f co, v4f q, v3f s )
1210 {
1211    v3_copy( m[3], co );
1212    s[0] = v3_length(m[0]);
1213    s[1] = v3_length(m[1]);
1214    s[2] = v3_length(m[2]);
1215
1216    m3x3f rot;
1217    v3_divs( m[0], s[0], rot[0] );
1218    v3_divs( m[1], s[1], rot[1] );
1219    v3_divs( m[2], s[2], rot[2] );
1220
1221    m3x3_q( rot, q );
1222 }
1223
1224 static void m4x3_expand_aabb_point( m4x3f m, boxf box, v3f point ){
1225    v3f v;
1226    m4x3_mulv( m, point, v );
1227
1228    v3_minv( box[0], v, box[0] );
1229    v3_maxv( box[1], v, box[1] );
1230 }
1231
1232 static void m4x3_expand_aabb_aabb( m4x3f m, boxf boxa, boxf boxb ){
1233    v3f a; v3f b;
1234    v3_copy( boxb[0], a );
1235    v3_copy( boxb[1], b );
1236    m4x3_expand_aabb_point( m, boxa, (v3f){ a[0], a[1], a[2] } );
1237    m4x3_expand_aabb_point( m, boxa, (v3f){ a[0], b[1], a[2] } );
1238    m4x3_expand_aabb_point( m, boxa, (v3f){ b[0], b[1], a[2] } );
1239    m4x3_expand_aabb_point( m, boxa, (v3f){ b[0], a[1], a[2] } );
1240    m4x3_expand_aabb_point( m, boxa, (v3f){ a[0], a[1], b[2] } );
1241    m4x3_expand_aabb_point( m, boxa, (v3f){ a[0], b[1], b[2] } );
1242    m4x3_expand_aabb_point( m, boxa, (v3f){ b[0], b[1], b[2] } );
1243    m4x3_expand_aabb_point( m, boxa, (v3f){ b[0], a[1], b[2] } );
1244 }
1245 static inline void m4x3_lookat( m4x3f m, v3f pos, v3f target, v3f up )
1246 {
1247    v3f dir;
1248    v3_sub( target, pos, dir );
1249    v3_normalize( dir );
1250
1251    v3_copy( dir, m[2] );
1252
1253    v3_cross( up, m[2], m[0] );
1254    v3_normalize( m[0] );
1255
1256    v3_cross( m[2], m[0], m[1] );
1257    v3_copy( pos, m[3] );
1258 }
1259
1260 /*
1261  * -----------------------------------------------------------------------------
1262  * Section 4.d                  4x4 matrices
1263  * -----------------------------------------------------------------------------
1264  */
1265
1266 #define M4X4_IDENTITY   {{1.0f, 0.0f, 0.0f, 0.0f },\
1267                         { 0.0f, 1.0f, 0.0f, 0.0f },\
1268                         { 0.0f, 0.0f, 1.0f, 0.0f },\
1269                         { 0.0f, 0.0f, 0.0f, 1.0f }}
1270 #define M4X4_ZERO       {{0.0f, 0.0f, 0.0f, 0.0f },\
1271                         { 0.0f, 0.0f, 0.0f, 0.0f },\
1272                         { 0.0f, 0.0f, 0.0f, 0.0f },\
1273                         { 0.0f, 0.0f, 0.0f, 0.0f }}
1274
1275 static void m4x4_projection( m4x4f m, f32 angle,
1276                              f32 ratio, f32 fnear, f32 ffar )
1277 {
1278    f32 scale = tanf( angle * 0.5f * VG_PIf / 180.0f ) * fnear,
1279          r = ratio * scale,
1280          l = -r,
1281          t = scale,
1282          b = -t;
1283
1284    m[0][0] =  2.0f * fnear / (r - l);
1285    m[0][1] =  0.0f;
1286    m[0][2] =  0.0f;
1287    m[0][3] =  0.0f;
1288
1289    m[1][0] =  0.0f;
1290    m[1][1] =  2.0f * fnear / (t - b);
1291    m[1][2] =  0.0f;
1292    m[1][3] =  0.0f;
1293
1294    m[2][0] =  (r + l) / (r - l);
1295    m[2][1] =  (t + b) / (t - b);
1296    m[2][2] = -(ffar + fnear) / (ffar - fnear);
1297    m[2][3] = -1.0f;
1298
1299    m[3][0] =  0.0f;
1300    m[3][1] =  0.0f;
1301    m[3][2] = -2.0f * ffar * fnear / (ffar - fnear);
1302    m[3][3] =  0.0f;
1303 }
1304
1305 static void m4x4_translate( m4x4f m, v3f v )
1306 {
1307    v4_muladds( m[3], m[0], v[0], m[3] );
1308    v4_muladds( m[3], m[1], v[1], m[3] );
1309    v4_muladds( m[3], m[2], v[2], m[3] );
1310 }
1311
1312 static inline void m4x4_copy( m4x4f a, m4x4f b )
1313 {
1314    v4_copy( a[0], b[0] );
1315    v4_copy( a[1], b[1] );
1316    v4_copy( a[2], b[2] );
1317    v4_copy( a[3], b[3] );
1318 }
1319
1320 static inline void m4x4_identity( m4x4f a )
1321 {
1322    m4x4f id = M4X4_IDENTITY;
1323    m4x4_copy( id, a );
1324 }
1325
1326 static inline void m4x4_zero( m4x4f a )
1327 {
1328    m4x4f zero = M4X4_ZERO;
1329    m4x4_copy( zero, a );
1330 }
1331
1332 static inline void m4x4_mul( m4x4f a, m4x4f b, m4x4f d )
1333 {
1334    f32 a00 = a[0][0], a01 = a[0][1], a02 = a[0][2], a03 = a[0][3],
1335          a10 = a[1][0], a11 = a[1][1], a12 = a[1][2], a13 = a[1][3],
1336          a20 = a[2][0], a21 = a[2][1], a22 = a[2][2], a23 = a[2][3],
1337          a30 = a[3][0], a31 = a[3][1], a32 = a[3][2], a33 = a[3][3],
1338
1339          b00 = b[0][0], b01 = b[0][1], b02 = b[0][2], b03 = b[0][3],
1340          b10 = b[1][0], b11 = b[1][1], b12 = b[1][2], b13 = b[1][3],
1341          b20 = b[2][0], b21 = b[2][1], b22 = b[2][2], b23 = b[2][3],
1342          b30 = b[3][0], b31 = b[3][1], b32 = b[3][2], b33 = b[3][3];
1343
1344   d[0][0] = a00*b00 + a10*b01 + a20*b02 + a30*b03;
1345   d[0][1] = a01*b00 + a11*b01 + a21*b02 + a31*b03;
1346   d[0][2] = a02*b00 + a12*b01 + a22*b02 + a32*b03;
1347   d[0][3] = a03*b00 + a13*b01 + a23*b02 + a33*b03;
1348   d[1][0] = a00*b10 + a10*b11 + a20*b12 + a30*b13;
1349   d[1][1] = a01*b10 + a11*b11 + a21*b12 + a31*b13;
1350   d[1][2] = a02*b10 + a12*b11 + a22*b12 + a32*b13;
1351   d[1][3] = a03*b10 + a13*b11 + a23*b12 + a33*b13;
1352   d[2][0] = a00*b20 + a10*b21 + a20*b22 + a30*b23;
1353   d[2][1] = a01*b20 + a11*b21 + a21*b22 + a31*b23;
1354   d[2][2] = a02*b20 + a12*b21 + a22*b22 + a32*b23;
1355   d[2][3] = a03*b20 + a13*b21 + a23*b22 + a33*b23;
1356   d[3][0] = a00*b30 + a10*b31 + a20*b32 + a30*b33;
1357   d[3][1] = a01*b30 + a11*b31 + a21*b32 + a31*b33;
1358   d[3][2] = a02*b30 + a12*b31 + a22*b32 + a32*b33;
1359   d[3][3] = a03*b30 + a13*b31 + a23*b32 + a33*b33;
1360 }
1361
1362 static inline void m4x4_mulv( m4x4f m, v4f v, v4f d )
1363 {
1364    v4f res;
1365
1366    res[0] = m[0][0]*v[0] + m[1][0]*v[1] + m[2][0]*v[2] + m[3][0]*v[3];
1367    res[1] = m[0][1]*v[0] + m[1][1]*v[1] + m[2][1]*v[2] + m[3][1]*v[3];
1368    res[2] = m[0][2]*v[0] + m[1][2]*v[1] + m[2][2]*v[2] + m[3][2]*v[3];
1369    res[3] = m[0][3]*v[0] + m[1][3]*v[1] + m[2][3]*v[2] + m[3][3]*v[3];
1370
1371    v4_copy( res, d );
1372 }
1373
1374 static inline void m4x4_inv( m4x4f a, m4x4f d )
1375 {
1376    f32 a00 = a[0][0], a01 = a[0][1], a02 = a[0][2], a03 = a[0][3],
1377          a10 = a[1][0], a11 = a[1][1], a12 = a[1][2], a13 = a[1][3],
1378          a20 = a[2][0], a21 = a[2][1], a22 = a[2][2], a23 = a[2][3],
1379          a30 = a[3][0], a31 = a[3][1], a32 = a[3][2], a33 = a[3][3],
1380          det,
1381          t[6];
1382
1383    t[0] = a22*a33 - a32*a23;
1384    t[1] = a21*a33 - a31*a23;
1385    t[2] = a21*a32 - a31*a22;
1386    t[3] = a20*a33 - a30*a23;
1387    t[4] = a20*a32 - a30*a22;
1388    t[5] = a20*a31 - a30*a21;
1389
1390    d[0][0] =  a11*t[0] - a12*t[1] + a13*t[2];
1391    d[1][0] =-(a10*t[0] - a12*t[3] + a13*t[4]);
1392    d[2][0] =  a10*t[1] - a11*t[3] + a13*t[5];
1393    d[3][0] =-(a10*t[2] - a11*t[4] + a12*t[5]);
1394
1395    d[0][1] =-(a01*t[0] - a02*t[1] + a03*t[2]);
1396    d[1][1] =  a00*t[0] - a02*t[3] + a03*t[4];
1397    d[2][1] =-(a00*t[1] - a01*t[3] + a03*t[5]);
1398    d[3][1] =  a00*t[2] - a01*t[4] + a02*t[5];
1399
1400    t[0] = a12*a33 - a32*a13;
1401    t[1] = a11*a33 - a31*a13;
1402    t[2] = a11*a32 - a31*a12;
1403    t[3] = a10*a33 - a30*a13;
1404    t[4] = a10*a32 - a30*a12;
1405    t[5] = a10*a31 - a30*a11;
1406
1407    d[0][2] =  a01*t[0] - a02*t[1] + a03*t[2];
1408    d[1][2] =-(a00*t[0] - a02*t[3] + a03*t[4]);
1409    d[2][2] =  a00*t[1] - a01*t[3] + a03*t[5];
1410    d[3][2] =-(a00*t[2] - a01*t[4] + a02*t[5]);
1411
1412    t[0] = a12*a23 - a22*a13;
1413    t[1] = a11*a23 - a21*a13;
1414    t[2] = a11*a22 - a21*a12;
1415    t[3] = a10*a23 - a20*a13;
1416    t[4] = a10*a22 - a20*a12;
1417    t[5] = a10*a21 - a20*a11;
1418
1419    d[0][3] =-(a01*t[0] - a02*t[1] + a03*t[2]);
1420    d[1][3] =  a00*t[0] - a02*t[3] + a03*t[4];
1421    d[2][3] =-(a00*t[1] - a01*t[3] + a03*t[5]);
1422    d[3][3] =  a00*t[2] - a01*t[4] + a02*t[5];
1423
1424    det = 1.0f / (a00*d[0][0] + a01*d[1][0] + a02*d[2][0] + a03*d[3][0]);
1425    v4_muls( d[0], det, d[0] );
1426    v4_muls( d[1], det, d[1] );
1427    v4_muls( d[2], det, d[2] );
1428    v4_muls( d[3], det, d[3] );
1429 }
1430
1431 /*
1432  * -----------------------------------------------------------------------------
1433  * Section 5.a                       Boxes
1434  * -----------------------------------------------------------------------------
1435  */
1436
1437 static inline void box_addpt( boxf a, v3f pt )
1438 {
1439    v3_minv( a[0], pt, a[0] );
1440    v3_maxv( a[1], pt, a[1] );
1441 }
1442
1443 static inline void box_concat( boxf a, boxf b )
1444 {
1445    v3_minv( a[0], b[0], a[0] );
1446    v3_maxv( a[1], b[1], a[1] );
1447 }
1448
1449 static inline void box_copy( boxf a, boxf b )
1450 {
1451    v3_copy( a[0], b[0] );
1452    v3_copy( a[1], b[1] );
1453 }
1454
1455 static inline int box_overlap( boxf a, boxf b )
1456 {
1457    return
1458    ( a[0][0] <= b[1][0] && a[1][0] >= b[0][0] ) &&
1459    ( a[0][1] <= b[1][1] && a[1][1] >= b[0][1] ) &&
1460    ( a[0][2] <= b[1][2] && a[1][2] >= b[0][2] )
1461    ;
1462 }
1463
1464 static int box_within( boxf greater, boxf lesser )
1465 {
1466    v3f a, b;
1467    v3_sub( lesser[0], greater[0], a );
1468    v3_sub( lesser[1], greater[1], b );
1469
1470    if( (a[0] >= 0.0f) && (a[1] >= 0.0f) && (a[2] >= 0.0f) &&
1471        (b[0] <= 0.0f) && (b[1] <= 0.0f) && (b[2] <= 0.0f) )
1472    {
1473       return 1;
1474    }
1475
1476    return 0;
1477 }
1478
1479 static inline void box_init_inf( boxf box ){
1480    v3_fill( box[0],  INFINITY );
1481    v3_fill( box[1], -INFINITY );
1482 }
1483
1484 /*
1485  * -----------------------------------------------------------------------------
1486  * Section 5.b                       Planes
1487  * -----------------------------------------------------------------------------
1488  */
1489
1490 static inline void tri_to_plane( f64 a[3], f64 b[3],
1491       f64 c[3], f64 p[4] )
1492 {
1493    f64 edge0[3];
1494    f64 edge1[3];
1495    f64 l;
1496
1497    edge0[0] = b[0] - a[0];
1498    edge0[1] = b[1] - a[1];
1499    edge0[2] = b[2] - a[2];
1500
1501    edge1[0] = c[0] - a[0];
1502    edge1[1] = c[1] - a[1];
1503    edge1[2] = c[2] - a[2];
1504
1505    p[0] = edge0[1] * edge1[2] - edge0[2] * edge1[1];
1506    p[1] = edge0[2] * edge1[0] - edge0[0] * edge1[2];
1507    p[2] = edge0[0] * edge1[1] - edge0[1] * edge1[0];
1508
1509    l = sqrt(p[0] * p[0] + p[1] * p[1] + p[2] * p[2]);
1510    p[3] = (p[0] * a[0] + p[1] * a[1] + p[2] * a[2]) / l;
1511
1512    p[0] = p[0] / l;
1513    p[1] = p[1] / l;
1514    p[2] = p[2] / l;
1515 }
1516
1517 static int plane_intersect3( v4f a, v4f b, v4f c, v3f p )
1518 {
1519    f32 const epsilon = 1e-6f;
1520
1521    v3f x;
1522    v3_cross( a, b, x );
1523    f32 d = v3_dot( x, c );
1524
1525    if( (d < epsilon) && (d > -epsilon) ) return 0;
1526
1527    v3f v0, v1, v2;
1528    v3_cross( b, c, v0 );
1529    v3_cross( c, a, v1 );
1530    v3_cross( a, b, v2 );
1531
1532    v3_muls(       v0, a[3], p );
1533    v3_muladds( p, v1, b[3], p );
1534    v3_muladds( p, v2, c[3], p );
1535    v3_divs( p, d, p );
1536
1537    return 1;
1538 }
1539
1540 int plane_intersect2( v4f a, v4f b, v3f p, v3f n )
1541 {
1542    f32 const epsilon = 1e-6f;
1543
1544    v4f c;
1545    v3_cross( a, b, c );
1546    f32 d = v3_length2( c );
1547
1548    if( (d < epsilon) && (d > -epsilon) )
1549       return 0;
1550
1551    v3f v0, v1, vx;
1552    v3_cross( c, b, v0 );
1553    v3_cross( a, c, v1 );
1554
1555    v3_muls( v0, a[3], vx );
1556    v3_muladds( vx, v1, b[3], vx );
1557    v3_divs( vx, d, p );
1558    v3_copy( c, n );
1559
1560    return 1;
1561 }
1562
1563 static int plane_segment( v4f plane, v3f a, v3f b, v3f co )
1564 {
1565    f32 d0 = v3_dot( a, plane ) - plane[3],
1566        d1 = v3_dot( b, plane ) - plane[3];
1567
1568    if( d0*d1 < 0.0f )
1569    {
1570       f32 tot = 1.0f/( fabsf(d0)+fabsf(d1) );
1571
1572       v3_muls( a, fabsf(d1) * tot, co );
1573       v3_muladds( co, b, fabsf(d0) * tot, co );
1574       return 1;
1575    }
1576
1577    return 0;
1578 }
1579
1580 static inline f64 plane_polarity( f64 p[4], f64 a[3] )
1581 {
1582    return
1583    (a[0] * p[0] + a[1] * p[1] + a[2] * p[2])
1584    -(p[0]*p[3] * p[0] + p[1]*p[3] * p[1] + p[2]*p[3] * p[2])
1585    ;
1586 }
1587
1588 static f32 ray_plane( v4f plane, v3f co, v3f dir ){
1589    f32 d = v3_dot( plane, dir );
1590    if( fabsf(d) > 1e-6f ){
1591       v3f v0;
1592       v3_muls( plane, plane[3], v0 );
1593       v3_sub( v0, co, v0 );
1594       return v3_dot( v0, plane ) / d;
1595    }
1596    else return INFINITY;
1597 }
1598
1599 /*
1600  * -----------------------------------------------------------------------------
1601  * Section 5.c            Closest point functions
1602  * -----------------------------------------------------------------------------
1603  */
1604
1605 /*
1606  * These closest point tests were learned from Real-Time Collision Detection by
1607  * Christer Ericson
1608  */
1609 static f32 closest_segment_segment( v3f p1, v3f q1, v3f p2, v3f q2,
1610    f32 *s, f32 *t, v3f c1, v3f c2)
1611 {
1612    v3f d1,d2,r;
1613    v3_sub( q1, p1, d1 );
1614    v3_sub( q2, p2, d2 );
1615    v3_sub( p1, p2, r );
1616
1617    f32 a = v3_length2( d1 ),
1618          e = v3_length2( d2 ),
1619          f = v3_dot( d2, r );
1620
1621    const f32 kEpsilon = 0.0001f;
1622
1623    if( a <= kEpsilon && e <= kEpsilon )
1624    {
1625       *s = 0.0f;
1626       *t = 0.0f;
1627       v3_copy( p1, c1 );
1628       v3_copy( p2, c2 );
1629
1630       v3f v0;
1631       v3_sub( c1, c2, v0 );
1632
1633       return v3_length2( v0 );
1634    }
1635
1636    if( a<= kEpsilon )
1637    {
1638       *s = 0.0f;
1639       *t = vg_clampf( f / e, 0.0f, 1.0f );
1640    }
1641    else
1642    {
1643       f32 c = v3_dot( d1, r );
1644       if( e <= kEpsilon )
1645       {
1646          *t = 0.0f;
1647          *s = vg_clampf( -c / a, 0.0f, 1.0f );
1648       }
1649       else
1650       {
1651          f32 b = v3_dot(d1,d2),
1652                d = a*e-b*b;
1653
1654          if( d != 0.0f )
1655          {
1656             *s = vg_clampf((b*f - c*e)/d, 0.0f, 1.0f);
1657          }
1658          else
1659          {
1660             *s = 0.0f;
1661          }
1662
1663          *t = (b*(*s)+f) / e;
1664
1665          if( *t < 0.0f )
1666          {
1667             *t = 0.0f;
1668             *s = vg_clampf( -c / a, 0.0f, 1.0f );
1669          }
1670          else if( *t > 1.0f )
1671          {
1672             *t = 1.0f;
1673             *s = vg_clampf((b-c)/a,0.0f,1.0f);
1674          }
1675       }
1676    }
1677
1678    v3_muladds( p1, d1, *s, c1 );
1679    v3_muladds( p2, d2, *t, c2 );
1680
1681    v3f v0;
1682    v3_sub( c1, c2, v0 );
1683    return v3_length2( v0 );
1684 }
1685
1686 static int point_inside_aabb( boxf box, v3f point )
1687 {
1688    if((point[0]<=box[1][0]) && (point[1]<=box[1][1]) && (point[2]<=box[1][2]) &&
1689       (point[0]>=box[0][0]) && (point[1]>=box[0][1]) && (point[2]>=box[0][2]) )
1690       return 1;
1691    else
1692       return 0;
1693 }
1694
1695 static void closest_point_aabb( v3f p, boxf box, v3f dest )
1696 {
1697    v3_maxv( p, box[0], dest );
1698    v3_minv( dest, box[1], dest );
1699 }
1700
1701 static void closest_point_obb( v3f p, boxf box,
1702                                   m4x3f mtx, m4x3f inv_mtx, v3f dest )
1703 {
1704    v3f local;
1705    m4x3_mulv( inv_mtx, p, local );
1706    closest_point_aabb( local, box, local );
1707    m4x3_mulv( mtx, local, dest );
1708 }
1709
1710 static f32 closest_point_segment( v3f a, v3f b, v3f point, v3f dest )
1711 {
1712    v3f v0, v1;
1713    v3_sub( b, a, v0 );
1714    v3_sub( point, a, v1 );
1715
1716    f32 t = v3_dot( v1, v0 ) / v3_length2(v0);
1717    t = vg_clampf(t,0.0f,1.0f);
1718    v3_muladds( a, v0, t, dest );
1719    return t;
1720 }
1721
1722 static void closest_on_triangle( v3f p, v3f tri[3], v3f dest )
1723 {
1724    v3f ab, ac, ap;
1725    f32 d1, d2;
1726
1727    /* Region outside A */
1728    v3_sub( tri[1], tri[0], ab );
1729    v3_sub( tri[2], tri[0], ac );
1730    v3_sub( p, tri[0], ap );
1731
1732    d1 = v3_dot(ab,ap);
1733    d2 = v3_dot(ac,ap);
1734    if( d1 <= 0.0f && d2 <= 0.0f )
1735    {
1736       v3_copy( tri[0], dest );
1737       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1738       return;
1739    }
1740
1741    /* Region outside B */
1742    v3f bp;
1743    f32 d3, d4;
1744
1745    v3_sub( p, tri[1], bp );
1746    d3 = v3_dot( ab, bp );
1747    d4 = v3_dot( ac, bp );
1748
1749    if( d3 >= 0.0f && d4 <= d3 )
1750    {
1751       v3_copy( tri[1], dest );
1752       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1753       return;
1754    }
1755
1756    /* Edge region of AB */
1757    f32 vc = d1*d4 - d3*d2;
1758    if( vc <= 0.0f && d1 >= 0.0f && d3 <= 0.0f )
1759    {
1760       f32 v = d1 / (d1-d3);
1761       v3_muladds( tri[0], ab, v, dest );
1762       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1763       return;
1764    }
1765
1766    /* Region outside C */
1767    v3f cp;
1768    f32 d5, d6;
1769    v3_sub( p, tri[2], cp );
1770    d5 = v3_dot(ab, cp);
1771    d6 = v3_dot(ac, cp);
1772
1773    if( d6 >= 0.0f && d5 <= d6 )
1774    {
1775       v3_copy( tri[2], dest );
1776       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1777       return;
1778    }
1779
1780    /* Region of AC */
1781    f32 vb = d5*d2 - d1*d6;
1782    if( vb <= 0.0f && d2 >= 0.0f && d6 <= 0.0f )
1783    {
1784       f32 w = d2 / (d2-d6);
1785       v3_muladds( tri[0], ac, w, dest );
1786       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1787       return;
1788    }
1789
1790    /* Region of BC */
1791    f32 va = d3*d6 - d5*d4;
1792    if( va <= 0.0f && (d4-d3) >= 0.0f && (d5-d6) >= 0.0f )
1793    {
1794       f32 w = (d4-d3) / ((d4-d3) + (d5-d6));
1795       v3f bc;
1796       v3_sub( tri[2], tri[1], bc );
1797       v3_muladds( tri[1], bc, w, dest );
1798       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1799       return;
1800    }
1801
1802    /* P inside region, Q via barycentric coordinates uvw */
1803    f32 d = 1.0f/(va+vb+vc),
1804          v = vb*d,
1805          w = vc*d;
1806
1807    v3_muladds( tri[0], ab, v, dest );
1808    v3_muladds( dest, ac, w, dest );
1809 }
1810
1811 enum contact_type
1812 {
1813    k_contact_type_default,
1814    k_contact_type_disabled,
1815    k_contact_type_edge
1816 };
1817
1818 static enum contact_type closest_on_triangle_1( v3f p, v3f tri[3], v3f dest )
1819 {
1820    v3f ab, ac, ap;
1821    f32 d1, d2;
1822
1823    /* Region outside A */
1824    v3_sub( tri[1], tri[0], ab );
1825    v3_sub( tri[2], tri[0], ac );
1826    v3_sub( p, tri[0], ap );
1827
1828    d1 = v3_dot(ab,ap);
1829    d2 = v3_dot(ac,ap);
1830    if( d1 <= 0.0f && d2 <= 0.0f )
1831    {
1832       v3_copy( tri[0], dest );
1833       return k_contact_type_default;
1834    }
1835
1836    /* Region outside B */
1837    v3f bp;
1838    f32 d3, d4;
1839
1840    v3_sub( p, tri[1], bp );
1841    d3 = v3_dot( ab, bp );
1842    d4 = v3_dot( ac, bp );
1843
1844    if( d3 >= 0.0f && d4 <= d3 )
1845    {
1846       v3_copy( tri[1], dest );
1847       return k_contact_type_edge;
1848    }
1849
1850    /* Edge region of AB */
1851    f32 vc = d1*d4 - d3*d2;
1852    if( vc <= 0.0f && d1 >= 0.0f && d3 <= 0.0f )
1853    {
1854       f32 v = d1 / (d1-d3);
1855       v3_muladds( tri[0], ab, v, dest );
1856       return k_contact_type_edge;
1857    }
1858
1859    /* Region outside C */
1860    v3f cp;
1861    f32 d5, d6;
1862    v3_sub( p, tri[2], cp );
1863    d5 = v3_dot(ab, cp);
1864    d6 = v3_dot(ac, cp);
1865
1866    if( d6 >= 0.0f && d5 <= d6 )
1867    {
1868       v3_copy( tri[2], dest );
1869       return k_contact_type_edge;
1870    }
1871
1872    /* Region of AC */
1873    f32 vb = d5*d2 - d1*d6;
1874    if( vb <= 0.0f && d2 >= 0.0f && d6 <= 0.0f )
1875    {
1876       f32 w = d2 / (d2-d6);
1877       v3_muladds( tri[0], ac, w, dest );
1878       return k_contact_type_edge;
1879    }
1880
1881    /* Region of BC */
1882    f32 va = d3*d6 - d5*d4;
1883    if( va <= 0.0f && (d4-d3) >= 0.0f && (d5-d6) >= 0.0f )
1884    {
1885       f32 w = (d4-d3) / ((d4-d3) + (d5-d6));
1886       v3f bc;
1887       v3_sub( tri[2], tri[1], bc );
1888       v3_muladds( tri[1], bc, w, dest );
1889       return k_contact_type_edge;
1890    }
1891
1892    /* P inside region, Q via barycentric coordinates uvw */
1893    f32 d = 1.0f/(va+vb+vc),
1894          v = vb*d,
1895          w = vc*d;
1896
1897    v3_muladds( tri[0], ab, v, dest );
1898    v3_muladds( dest, ac, w, dest );
1899
1900    return k_contact_type_default;
1901 }
1902
1903 static void closest_point_elipse( v2f p, v2f e, v2f o )
1904 {
1905    v2f pabs, ei, e2, ve, t;
1906
1907    v2_abs( p, pabs );
1908    v2_div( (v2f){ 1.0f, 1.0f }, e, ei );
1909    v2_mul( e, e, e2 );
1910    v2_mul( ei, (v2f){ e2[0]-e2[1], e2[1]-e2[0] }, ve );
1911
1912    v2_fill( t, 0.70710678118654752f );
1913
1914    for( int i=0; i<3; i++ ){
1915       v2f v, u, ud, w;
1916
1917       v2_mul( ve, t, v );  /* ve*t*t*t */
1918       v2_mul( v, t, v );
1919       v2_mul( v, t, v );
1920
1921       v2_sub( pabs, v, u );
1922       v2_normalize( u );
1923
1924       v2_mul( t, e, ud );
1925       v2_sub( ud, v, ud );
1926
1927       v2_muls( u, v2_length( ud ), u );
1928
1929       v2_add( v, u, w );
1930       v2_mul( w, ei, w );
1931
1932       v2_maxv( (v2f){0.0f,0.0f}, w, t );
1933       v2_normalize( t );
1934    }
1935
1936    v2_mul( t, e, o );
1937    v2_copysign( o, p );
1938 }
1939
1940 /*
1941  * -----------------------------------------------------------------------------
1942  * Section 5.d               Raycasts & Spherecasts
1943  * -----------------------------------------------------------------------------
1944  */
1945
1946 int ray_aabb1( boxf box, v3f co, v3f dir_inv, f32 dist )
1947 {
1948    v3f v0, v1;
1949    f32 tmin, tmax;
1950
1951    v3_sub( box[0], co, v0 );
1952    v3_sub( box[1], co, v1 );
1953
1954    v3_mul( v0, dir_inv, v0 );
1955    v3_mul( v1, dir_inv, v1 );
1956
1957    tmin = vg_minf( v0[0], v1[0] );
1958    tmax = vg_maxf( v0[0], v1[0] );
1959    tmin = vg_maxf( tmin, vg_minf( v0[1], v1[1] ));
1960    tmax = vg_minf( tmax, vg_maxf( v0[1], v1[1] ));
1961    tmin = vg_maxf( tmin, vg_minf( v0[2], v1[2] ));
1962    tmax = vg_minf( tmax, vg_maxf( v0[2], v1[2] ));
1963
1964    return (tmax >= tmin) && (tmin <= dist) && (tmax >= 0.0f);
1965 }
1966
1967 /* Time of intersection with ray vs triangle */
1968 static int ray_tri( v3f tri[3], v3f co,
1969                     v3f dir, f32 *dist )
1970 {
1971    f32 const kEpsilon = 0.00001f;
1972
1973    v3f v0, v1, h, s, q, n;
1974    f32 a,f,u,v,t;
1975
1976    f32 *pa = tri[0],
1977          *pb = tri[1],
1978          *pc = tri[2];
1979
1980    v3_sub( pb, pa, v0 );
1981    v3_sub( pc, pa, v1 );
1982    v3_cross( dir, v1, h );
1983    v3_cross( v0, v1, n );
1984
1985    if( v3_dot( n, dir ) > 0.0f ) /* Backface culling */
1986       return 0;
1987
1988    /* Parralel */
1989    a = v3_dot( v0, h );
1990
1991    if( a > -kEpsilon && a < kEpsilon )
1992       return 0;
1993
1994    f = 1.0f/a;
1995    v3_sub( co, pa, s );
1996
1997    u = f * v3_dot(s, h);
1998    if( u < 0.0f || u > 1.0f )
1999       return 0;
2000
2001    v3_cross( s, v0, q );
2002    v = f * v3_dot( dir, q );
2003    if( v < 0.0f || u+v > 1.0f )
2004       return 0;
2005
2006    t = f * v3_dot(v1, q);
2007    if( t > kEpsilon )
2008    {
2009       *dist = t;
2010       return 1;
2011    }
2012    else return 0;
2013 }
2014
2015 /* time of intersection with ray vs sphere */
2016 static int ray_sphere( v3f c, f32 r,
2017                        v3f co, v3f dir, f32 *t )
2018 {
2019    v3f m;
2020    v3_sub( co, c, m );
2021
2022    f32 b  = v3_dot( m, dir ),
2023          c1 = v3_dot( m, m ) - r*r;
2024
2025    /* Exit if r’s origin outside s (c > 0) and r pointing away from s (b > 0) */
2026    if( c1 > 0.0f && b > 0.0f )
2027       return 0;
2028
2029    f32 discr = b*b - c1;
2030
2031    /* A negative discriminant corresponds to ray missing sphere */
2032    if( discr < 0.0f )
2033       return 0;
2034
2035    /*
2036     * Ray now found to intersect sphere, compute smallest t value of
2037     * intersection
2038     */
2039    *t = -b - sqrtf( discr );
2040
2041    /* If t is negative, ray started inside sphere so clamp t to zero */
2042    if( *t < 0.0f )
2043       *t = 0.0f;
2044
2045    return 1;
2046 }
2047
2048 /*
2049  * time of intersection of ray vs cylinder
2050  * The cylinder does not have caps but is finite
2051  *
2052  * Heavily adapted from regular segment vs cylinder from:
2053  *    Real-Time Collision Detection
2054  */
2055 static int ray_uncapped_finite_cylinder( v3f q, v3f p, f32 r,
2056                                          v3f co, v3f dir, f32 *t )
2057 {
2058    v3f d, m, n, sb;
2059    v3_muladds( co, dir, 1.0f, sb );
2060
2061    v3_sub( q, p, d );
2062    v3_sub( co, p, m );
2063    v3_sub( sb, co, n );
2064
2065    f32 md = v3_dot( m, d ),
2066          nd = v3_dot( n, d ),
2067          dd = v3_dot( d, d ),
2068          nn = v3_dot( n, n ),
2069          mn = v3_dot( m, n ),
2070          a  = dd*nn - nd*nd,
2071          k  = v3_dot( m, m ) - r*r,
2072          c  = dd*k - md*md;
2073
2074    if( fabsf(a) < 0.00001f )
2075    {
2076       /* Segment runs parallel to cylinder axis */
2077       return 0;
2078    }
2079
2080    f32 b     = dd*mn - nd*md,
2081          discr = b*b - a*c;
2082
2083    if( discr < 0.0f )
2084       return 0; /* No real roots; no intersection */
2085
2086    *t = (-b - sqrtf(discr)) / a;
2087    if( *t < 0.0f )
2088       return 0; /* Intersection behind ray */
2089
2090    /* Check within cylinder segment */
2091    if( md + (*t)*nd < 0.0f )
2092       return 0;
2093
2094    if( md + (*t)*nd > dd )
2095       return 0;
2096
2097    /* Segment intersects cylinder between the endcaps; t is correct */
2098    return 1;
2099 }
2100
2101 /*
2102  * Time of intersection of sphere and triangle. Origin must be outside the
2103  * colliding area. This is a fairly long procedure.
2104  */
2105 static int spherecast_triangle( v3f tri[3],
2106                                 v3f co, v3f dir, f32 r, f32 *t, v3f n )
2107 {
2108    v3f sum[3];
2109    v3f v0, v1;
2110
2111    v3_sub( tri[1], tri[0], v0 );
2112    v3_sub( tri[2], tri[0], v1 );
2113    v3_cross( v0, v1, n );
2114    v3_normalize( n );
2115    v3_muladds( tri[0], n, r, sum[0] );
2116    v3_muladds( tri[1], n, r, sum[1] );
2117    v3_muladds( tri[2], n, r, sum[2] );
2118
2119    int hit = 0;
2120    f32 t_min = INFINITY,
2121          t1;
2122
2123    if( ray_tri( sum, co, dir, &t1 ) ){
2124       t_min = vg_minf( t_min, t1 );
2125       hit = 1;
2126    }
2127
2128    /*
2129     * Currently disabled; ray_sphere requires |d| = 1. it is not very important.
2130     */
2131 #if 0
2132    for( int i=0; i<3; i++ ){
2133       if( ray_sphere( tri[i], r, co, dir, &t1 ) ){
2134          t_min = vg_minf( t_min, t1 );
2135          hit = 1;
2136       }
2137    }
2138 #endif
2139
2140    for( int i=0; i<3; i++ ){
2141       int i0 =  i,
2142           i1 = (i+1)%3;
2143
2144       if( ray_uncapped_finite_cylinder( tri[i0], tri[i1], r, co, dir, &t1 ) ){
2145          if( t1 < t_min ){
2146             t_min = t1;
2147
2148             v3f co1, ct, cx;
2149             v3_add( dir, co, co1 );
2150             v3_lerp( co, co1, t_min, ct );
2151
2152             closest_point_segment( tri[i0], tri[i1], ct, cx );
2153             v3_sub( ct, cx, n );
2154             v3_normalize( n );
2155          }
2156
2157          hit = 1;
2158       }
2159    }
2160
2161    *t = t_min;
2162    return hit;
2163 }
2164
2165 /*
2166  * -----------------------------------------------------------------------------
2167  * Section 5.e                       Curves
2168  * -----------------------------------------------------------------------------
2169  */
2170
2171 static void eval_bezier_time( v3f p0, v3f p1, v3f h0, v3f h1, f32 t, v3f p )
2172 {
2173    f32 tt = t*t,
2174          ttt = tt*t;
2175
2176    v3_muls( p1, ttt, p );
2177    v3_muladds( p, h1, 3.0f*tt  -3.0f*ttt, p );
2178    v3_muladds( p, h0, 3.0f*ttt -6.0f*tt  +3.0f*t, p );
2179    v3_muladds( p, p0, 3.0f*tt  -ttt -3.0f*t +1.0f, p );
2180 }
2181
2182 static void eval_bezier3( v3f p0, v3f p1, v3f p2, f32 t, v3f p )
2183 {
2184    f32 u = 1.0f-t;
2185
2186    v3_muls( p0, u*u, p );
2187    v3_muladds( p, p1, 2.0f*u*t, p );
2188    v3_muladds( p, p2, t*t, p );
2189 }
2190
2191 /*
2192  * -----------------------------------------------------------------------------
2193  * Section 5.f                      Volumes
2194  * -----------------------------------------------------------------------------
2195  */
2196
2197 static float vg_sphere_volume( float radius ){
2198    float r3 = radius*radius*radius;
2199    return (4.0f/3.0f) * VG_PIf * r3;
2200 }
2201
2202 /*
2203  * -----------------------------------------------------------------------------
2204  * Section 6.a            PSRNG and some distributions
2205  * -----------------------------------------------------------------------------
2206  */
2207
2208 /* An implementation of the MT19937 Algorithm for the Mersenne Twister
2209  * by Evan Sultanik.  Based upon the pseudocode in: M. Matsumoto and
2210  * T. Nishimura, "Mersenne Twister: A 623-dimensionally
2211  * equidistributed uniform pseudorandom number generator," ACM
2212  * Transactions on Modeling and Computer Simulation Vol. 8, No. 1,
2213  * January pp.3-30 1998.
2214  *
2215  * http://www.sultanik.com/Mersenne_twister
2216  * https://github.com/ESultanik/mtwister/blob/master/mtwister.c
2217  */
2218
2219 #define MT_UPPER_MASK         0x80000000
2220 #define MT_LOWER_MASK         0x7fffffff
2221 #define MT_TEMPERING_MASK_B   0x9d2c5680
2222 #define MT_TEMPERING_MASK_C   0xefc60000
2223
2224 #define MT_STATE_VECTOR_LENGTH 624
2225
2226 /* changes to STATE_VECTOR_LENGTH also require changes to this */
2227 #define MT_STATE_VECTOR_M      397
2228
2229 struct {
2230   u32 mt[MT_STATE_VECTOR_LENGTH];
2231   i32 index;
2232 }
2233 static vg_rand;
2234
2235 static void vg_rand_seed( unsigned long seed )
2236 {
2237    /* set initial seeds to mt[STATE_VECTOR_LENGTH] using the generator
2238     * from Line 25 of Table 1 in: Donald Knuth, "The Art of Computer
2239     * Programming," Vol. 2 (2nd Ed.) pp.102.
2240     */
2241    vg_rand.mt[0] = seed & 0xffffffff;
2242    for( vg_rand.index=1; vg_rand.index<MT_STATE_VECTOR_LENGTH; vg_rand.index++){
2243       vg_rand.mt[vg_rand.index] =
2244          (6069 * vg_rand.mt[vg_rand.index-1]) & 0xffffffff;
2245    }
2246 }
2247
2248 /*
2249  * Generates a pseudo-randomly generated long.
2250  */
2251 static u32 vg_randu32(void)
2252 {
2253    u32 y;
2254    /* mag[x] = x * 0x9908b0df for x = 0,1 */
2255    static u32 mag[2] = {0x0, 0x9908b0df};
2256    if( vg_rand.index >= MT_STATE_VECTOR_LENGTH || vg_rand.index < 0 ){
2257       /* generate STATE_VECTOR_LENGTH words at a time */
2258       int kk;
2259       if( vg_rand.index >= MT_STATE_VECTOR_LENGTH+1 || vg_rand.index < 0 ){
2260          vg_rand_seed( 4357 );
2261       }
2262       for( kk=0; kk<MT_STATE_VECTOR_LENGTH-MT_STATE_VECTOR_M; kk++ ){
2263          y = (vg_rand.mt[kk] & MT_UPPER_MASK) |
2264              (vg_rand.mt[kk+1] & MT_LOWER_MASK);
2265          vg_rand.mt[kk] = vg_rand.mt[kk+MT_STATE_VECTOR_M] ^
2266                            (y >> 1) ^ mag[y & 0x1];
2267       }
2268       for( ; kk<MT_STATE_VECTOR_LENGTH-1; kk++ ){
2269          y = (vg_rand.mt[kk] & MT_UPPER_MASK) |
2270              (vg_rand.mt[kk+1] & MT_LOWER_MASK);
2271          vg_rand.mt[kk] =
2272             vg_rand.mt[ kk+(MT_STATE_VECTOR_M-MT_STATE_VECTOR_LENGTH)] ^
2273                         (y >> 1) ^ mag[y & 0x1];
2274       }
2275       y = (vg_rand.mt[MT_STATE_VECTOR_LENGTH-1] & MT_UPPER_MASK) |
2276           (vg_rand.mt[0] & MT_LOWER_MASK);
2277       vg_rand.mt[MT_STATE_VECTOR_LENGTH-1] =
2278          vg_rand.mt[MT_STATE_VECTOR_M-1] ^ (y >> 1) ^ mag[y & 0x1];
2279       vg_rand.index = 0;
2280    }
2281    y = vg_rand.mt[vg_rand.index++];
2282    y ^= (y >> 11);
2283    y ^= (y << 7) & MT_TEMPERING_MASK_B;
2284    y ^= (y << 15) & MT_TEMPERING_MASK_C;
2285    y ^= (y >> 18);
2286    return y;
2287 }
2288
2289 /*
2290  * Generates a pseudo-randomly generated f64 in the range [0..1].
2291  */
2292 static inline f64 vg_randf64(void)
2293 {
2294    return (f64)vg_randu32()/(f64)0xffffffff;
2295 }
2296
2297 static inline f64 vg_randf64_range( f64 min, f64 max )
2298 {
2299    return vg_lerp( min, max, (f64)vg_randf64() );
2300 }
2301
2302 static inline void vg_rand_dir( v3f dir )
2303 {
2304    dir[0] = vg_randf64();
2305    dir[1] = vg_randf64();
2306    dir[2] = vg_randf64();
2307
2308    v3_muls( dir, 2.0f, dir );
2309    v3_sub( dir, (v3f){1.0f,1.0f,1.0f}, dir );
2310
2311    v3_normalize( dir );
2312 }
2313
2314 static inline void vg_rand_sphere( v3f co )
2315 {
2316    vg_rand_dir(co);
2317    v3_muls( co, cbrtf( vg_randf64() ), co );
2318 }
2319
2320 #endif /* VG_M_H */