Analyse de données symboliques

Un article de la désencyclopédie.

Aller à : Navigation, chercher

L' analyse de données symboliques (ADS) généralise l'analyse de données (AD, ou statistique exploratoire multidimensionnelle) à de nouveaux types de données en établissant un cadre de modélisation mathématique à base de types de données structurées allant au-delà de l'expressivité tabulaire classique. Ainsi au lieu du traditionnel « Vous reprendriez bien un peu de tableaux de brocolis et de chou-fleurs ? », prendra place un savant « Vous reprendriez bien un peu de math ? », lors d'une adresse à vos invités de soirée. La capacité à encapsuler un concept statistico-philosophique — comme la table, ou la chaise touchant le salaire minimum dans les villes d'un ensemble des fournisseurs d'un produit P1 donné — dans un objet intensionnel plutôt qu' extensionnel, dans le sens où elle rationalise la pratique de l'échantillonnage en statistique traditionnelle —, constitue une véritable clé de voûte dans la mise en œuvre des fameux treillis de Gallois.

NB : L'analyse de données symboliques n'est pas à confondre avec l'analyse symbolique de données.

Enfin, dans son effort d'exprimer une logique statistique dans son langage à lui, l'ADS constitue un outil privilégié de l'expert en connerie dans son domaine métier, car le problème se trouve exprimé dans les termes de son langage.

Sommaire

[modifier] Principe

[modifier] Analyse classique

Selon l'AD classique, chaque individu d'un ensemble à analyser se réduit à un point dans l'espace formé du produit cartésien math, celui-ci puisant ses racines dans mathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmath Image:mine.png mathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmath Image:mine.png mathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmath Image:mine.png mathImage:mine.pngmath Image:mine.png mathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmath, dont l'application standard est le Démineur.

Soit un tableau de données dans cet espace (en notant math la fonction math, avec math l'espace des "individus", ou "entités arbitraires", qui fait correspondre un individu réel à une entité purement descriptive de l'ensemble math).

math math math math math math math math math math
math 23,68 m Image:mine.png math
math 68,5 cacahuètes math
math math Image:Trisomie-21-triple.jpg
math Missing value palindrome d'anagramme = emmargana

Les déficiences de cette représentation des données sont criardes :

  • Absence de treillis de Gallois
  • Trisomie (cf. math qui correspond à la case à l'intersection de la colonne math et de la ligne math)
  • Délaissement de tout droit à la "variation interne" d'un individu (celui-ci étant le produit de mono-valeurs ou "modalités de variable"), comme sa capacité à mesurer entre 1m50 et 1m80, de chausser entre du 40 et du 70, et de fréquenter entre 1 et 1 femme[1]
  • Quadrillage par mines anti-personnelles

[modifier] Analyse symbolique

L'ADS procède de l'idée de synthétiser toutes les lignes en une seule, i.e., un macro-individu formé de l'ensemble math. Il en résulte au moins ces avancées majeures (cf. tableau symbolique en dessous) :

  • Richesse modélisatoire plus proche de la réalité, dotée d'une syntaxe ad hoc
  • Explosion de la trisomie par contact entre les chromosomes et la mine anti-personnelle
  • Abandon des stéréotypes : remarquez dans le tableau ci-dessous le remplacement des math par une allusion à l'historique « Et 1, et 2, et 3-0 ! »
Minage des espèces trisomiques
math math math math math math math math math math
math math

     68,5 cacahuètes math

Image:mine.pngImage:Trisomie-21-triple.jpg 23,68 m

palindrome d'anagramme = emmargana math Missing value

[modifier] Retour possible à l'analyse classique

L'indéniabilité de la valeur ajoutée découle immédiatement de pouvoir revenir à un codage tabulaire classique sans surmultiplication du chaos, en offrant la possibilité de faire le pont vers la théorie des bases de données relationnelles.

Dans le codage symbolique math suivant, on a représenté un triangle par ses angles grâce à une fonction introspective extra-lucide math valant 1 quand certaines sommes des angles valent exactement 180°, et à 4 fonctions venues d'une autre dimension spatio-temporelle, soient math, math, math et math :

Tableau préalablement symbolisé TA
math math math
math Somme des angles du triangle ABC = 180° et math

On a également ajouté en gras une règle d'intégrité consistant à poser que la somme des angles du triangle vaut 180°. Ceci n'est tout simplement pas possible dans une base de données relationnelle. On pourrait également rajouter d'autres règles telles que math : l'expressivité symbolique ne souffre d'aucune limitation.

Exemple de re-tabulation classique de TA
math math math
math 0 46 80
math 46 0 68,5 cacahuètes 54
math 80 54 0

L'objet symbolique TA modélise mieux notre idée du triangle selon Aristote, que le tableau ci-dessus. Pour reconnaître en effet notre triangle ABC, l'homme préfère visualiser si une projection mentale de chaque côté d'un triangle imaginaire appartient à ABC (d'où math tire son nom de fonction de reconnaissance), plutôt que comparer dans l'abstrait des matrices de lignes et colonnes. Gorky a notamment plaidé en faveur d'une approche binaire : « Oui math ! Non ! math !! Car Aga, AGAGA ! », quitte à se tromper.

[modifier] Formalisme

Soit une fonction de généralisation math, avec math associative et commutative, math l'ensemble des futures désillusions organisables dans un treillis, et math l'ensemble des parties de math. Comme sa signature de fonction l'indique, math prend deux descriptions d'individus et en synthétise un objet symbolique.

Un objet symbolique math s'exprime sous forme d'un triplet math. L'assertion logique (i.e., ayant pour résultat un degré de vérité entre le vrai et le faux) math — avec math la fonction transformant un individu en sa description, math, math, math l'ensemble des individus et math l'ensemble des descriptions — se définit comme le degré de satisfiabilité (entre 0 et 1) de math par rapport à une description math selon la relation mathématique math. math est laissé au choix de l' "expert" (généralement l'opérateur d'appartenance à un ensemble).

On note math l' extension de math, i.e., les individus "reconnus" grâce à math comme appartenant à math.

Nous posons math : ceci signifie qu'un objet symbolique math est équivalent à la description math qu'on utilise comme référence utilisée dans des "tests de satisfiabilité", de la même façon que la pénétration d'un cube dans un creux carré (ici la description-référence) est un "test de satisfiabilité" réussi. Dans un autre langage, math constitue un "filtre" mathématique. Posons math pour les besoins de la rigueur. Supposons de plus que tous les éléments math sont organisables en treillis de Gallois.

[modifier] Théorème

Énoncé
Les objets symboliques sont organisés dans un