Mu, sigma & friends

1 mai 2017

You’re a programmer and sometimes you need some statistical tools and knowledge?  Here’s a short list of resources that could be helpful to you.


Julia

26 août 2016

If you need to do some serious maths/statistics stuff or just number crunching, there’s plenty of tools out there.

Being a happy Smalltalker/Pharoer/VisualWorker/VisualAger/Dolphiner/Squeaker, my favorite library is PolyMath (previously known as SciSmalltalk).  Otherwise, I’m a big fan of R (mostly because of the huge amount of packages available).  Hey! That’s a long way from my nightmare days of SAS and SPSS!

Most complaints I hear about R is its inability to deal with large amounts of data and somewhat annoying syntax/style (I don’t get it!!!).

But there’s always Julia.  Give it a try!


Freewill in progress (2)

3 août 2016

Freewill Selection Policies(Click to enlarge)

What’s up?

As you can see, Freewill now supports 17 different selection policies.  At this point, all of them are coded but only half of them have been tested.

The 11 available termination policies are coded, half of them tested.

So far, only 2 mutation policies are available.  Both of them are coded and tested. I will probably need a few extras for TSP type of problems as well as numerically parametrized problems (e.g. De Jong functions with a domain for each variable).  I’ll probably add 3-4 other ones specific to the problem that started all this adventure!

Only one immigration policy (no immigration!) is available and it will stay that way for a long time.  I’ll wait until I am hyper confident that this framework is rock solid before introducing parallelism and exchange of individuals between « islands » (i.e. simulations).  This one is a faaaaaaar away!

Six crossover policies are available as of now .  This area will require some (minor I think at first glance) changes for the TSP type of problems : not quite decided on the approach I will take to solve this.  Since crossover is often very problem/chromosome specific, I’ll probably delay those change until the end, once I have all examples coded and ready to be tested to have a better idea of what is needed.  But I will definitely add a few (3-4) crossover policies tailored for the Ruzzle problem.

I have solved the discrepancy (see here and here) between my results and the TSPLIB ones regarding the tour length of the Burma14 problem.  Will probably add a lot bigger TSP problem to see how the framework can handle an extremely huge search space! Oh!  And I need to clean up all the crap I added/modified while looking for the problem of « distance difference » : 2 classes were butchered in the process!

I need to add a few « crash test dummy » classes to test all those different selection policies (and crossover) in a simpler and more efficient manner!  Or I should kick myself in the %*&#$!@ and code the « bits » example classes…

I will soon work on a customizable display of statistics.  All that’s needed is already there, it’s just a matter of gluing everything together!

Once I’m done with the 8 queens problems, I’ll attack the numerically parametrized problems.  Will probably have 2-3 examples (from De Jong functions) as well as the INSANE Griewank function.

The classes used for randomly choosing the next parent chromosomes as well as scaling/ranking can be optimized.  But since they just work great since day 1, I’ll keep that for the very end.  But I know they can be a lot faster than what they are right now.

I also plan on having a very basic export mechanism so I can dump all those ruzzle chromosomes in a MySQL database to be able to do some reporting and study the various policies and their effects.

I started adding comments to the classes, mostly to keep references, maintain a todo list per class and add some notes for myself to quickly remember why things work that way!

I’ll probably have an image by tomorrow that will run simulations for the ruzzle problem full-time. I wanna beat that record!

 

Save

Save

Save

Save


Lincoln Index

17 décembre 2015

Un article intéressant sur une mesure statistique peu connue et utilisée dans le monde de l’assurance qualité : l’index de Lincoln.


Statistiques

12 avril 2015

1) Le paradoxe de Simpson

Avant de croire aveuglément les chiffres qu’on vous balance, il faudrait vous méfier!  Quant il s’agit de statistiques, il y a tellement de stupidités qui se disent à la radio, la télé et dans les journaux que c’en est pathétique! Et il ne faut pas nécessairement avoir fait des statistiques au niveau universitaire pour comprendre certains de ces pièges à con!  Voici donc un excellent vidéo expliquant le paradoxe de Simpson.  Pour d’autres vidéos tout aussi éducatifs, je vous recommande le channel ScienceÉtonnante ou, encore mieux, le blogue!

2) Statistiques, méfiez-vous!

statistiques méfiez-vous

Statistiques, méfiez-vous! est un must pour quiconque désire sérieusement comprendre et analyser les statistiques.  Cet excellent ouvrage met l’emphase sur les différents pièges, paradoxes et biais qu’on oublie trop souvent quand vient le temps d’interpréter des résultats!  C’est à la portée de tous, cet ouvrage évitant l’aspect technique et mathématique des statistiques.  Si vous avez fait des statistiques de niveau universitaire, ce n’est rien pour vous clouer le cul au plancher de stupéfaction mais c’est quand même bien fait. J’ai adoré ce bouquin!

3) Vous avez dit hasard ? : Entre mathématiques et psychologie

 

 

vous avez dit hasard

Un ouvrage qui mélange mathématiques, psychologie, philosophie et une foule d’autres domaines.  Vous avez dit hasard ? : Entre mathématiques et psychologie tente de répondre à une question toute simple (en apparence) : qu’est-ce que le hasard?  Vos certitudes seront déboulonnées une à une et vous découvrirez que rien n’est simple quand il s’agit du hasard!  Un ouvrage qui bousculera votre cervelle de façon parfois surprenante!

4) La méthode Six Sigma

Je lisais récemment un torchon écrit par un gestionnaire au sujet des bienfaits de la méthode Six Sigma dans son entreprise.  De façon évidente, ce champion du buzzword n’avait absolument aucune idée de ce dont il parlait.  On lui aurait mis l’alphabet grec sous le nez qu’il n’aurait pas pu trouver sigma minuscule ou majuscule!  Quant à ce à quoi fait référence sigma en statistiques, j’imagine qu’on l’a briefé tout au plus 2 minutes sur la question!  Alors avant de dire que notre entreprise a atteint le niveau de 6 sigma, encore faudrait-il savoir ce dont on parle.

Six sigmas pour un serveur, c’est moins de 1 minute 47 secondes de downtime par année.  C’est flipper une pièce de monnaie sur pile 19 fois consécutives.  C’est moins de 3.4 défectuosités par million!  Alors avant de dire des imbécilités (ou pire, de les publier!), il y a un minimum : faire de la recherche, comprendre, analyser et réaliser que n’est pas Six Sigma l’entreprise qui veut!


SciSmalltalk 0.9

18 avril 2014

À tous ceux qui ont à faire du traitement numérique, des statistiques ou dont les programmes Smalltalk nécessitent des mathématiques non triviales, sachez que le code de l’excellent livre de Didier H. Besset, Object-Oriented Implementation of Numerical Methods: An Introduction with Java & Smalltalk, a été porté (et est maintenu) depuis un certain temps sur Pharo Smalltalk.

La version 0.9 du package SciSmalltalk vient de sortir tel qu’annoncé ici!

Les initiés reconnaîtront, ci-dessous, un attracteur de Lorentz. Le graphique a été généré par l’engin de visualisation Roassal!

AttracteurDeLorentz

Vous pouvez suivre le développement de SciSmalltalk sur Twitter (@SciSmalltalk), sur GitHub (ici), sur Google Groups (ici) ou sur la mailing list de Google Groups (scismalltalk@googlegroups.com).

Le port original du code de Besset est disponible ici pour ceux qui oseraient s’aventurer à amener SciSmalltalk/DhbNumerical sur une autre plate-forme Smalltalk…


Analyse de corpus

18 février 2013

Si vous êtes féru de statistiques et de littérature, un article intéressant sur l’analyse de corpus ici.

On y traite de densité de vocubalaire, d’analyse de fréquence, de comparaison entre auteurs et entre livres.

Bref, stats et livres réunis : le meilleur des deux mondes!