Analyse de données symboliques

Un article de la désencyclopédie.

Aller à : Navigation, chercher

L' analyse de données symboliques (ADS) généralise l'analyse de données (AD, ou statistique exploratoire multidimensionnelle) à de nouveaux types de données en établissant un cadre de modélisation mathématique à base de types de données structurées allant au-delà de l'expressivité tabulaire classique. Ainsi au lieu du traditionnel « Vous reprendriez bien un peu de tableaux de brocolis et de chou-fleurs ? », prendra place un savant « Vous reprendriez bien un peu de \{w_1, w_2, w_3\} ? », lors d'une adresse à vos invités de soirée. La capacité à encapsuler un concept statistico-philosophique — comme la table, ou la chaise touchant le salaire minimum dans les villes d'un ensemble des fournisseurs d'un produit P1 donné — dans un objet intensionnel plutôt qu' extensionnel, dans le sens où elle rationalise la pratique de l'échantillonnage en statistique traditionnelle —, constitue une véritable clé de voûte dans la mise en œuvre des fameux treillis de Gallois.

NB : L'analyse de données symboliques n'est pas à confondre avec l'analyse symbolique de données.

Enfin, dans son effort d'exprimer une logique statistique dans son langage à lui, l'ADS constitue un outil privilégié de l'expert en connerie dans son domaine métier, car le problème se trouve exprimé dans les termes de son langage.

[modifier] Principe

[modifier] Analyse classique

Selon l'AD classique, chaque individu d'un ensemble à analyser se réduit à un point dans l'espace formé du produit cartésien S \times T \times E \times R \times E \times O \times T \times Y \times P \times E, celui-ci puisant ses racines dans MMine.pngIMine.pngNMine.pngE Mine.png AMine.pngNMine.pngTMine.pngI Mine.png PMine.pngEMine.pngRMine.pngSMine.pngOMine.pngNMine.pngNMine.pngEMine.pngLMine.pngLMine.pngE Mine.png AMine.pngU Mine.png CMine.pngAMine.pngMMine.pngBMine.pngOMine.pngDMine.pngGMine.pngE, dont l'application standard est le Démineur.

Soit un tableau de données dans cet espace (en notant y_I la fonction y_I : \Omega \mapsto I, avec \Omega l'espace des "individus", ou "entités arbitraires", qui fait correspondre un individu réel à une entité purement descriptive de l'ensemble I).

y_S y_T y_E y_R y_E y_O y_T y_Y y_P y_E
w_0 23,68 m Mine.png \{F1, F2, F3 \}
w_1 68,5 cacahuètes -574,002
w_2 \{fourniret, dutroux, dieudonne \} Trisomie-21-triple.jpg
w_3 Missing value palindrome d'anagramme = emmargana

Les déficiences de cette représentation des données sont criardes :

  • Absence de treillis de Gallois
  • Trisomie (cf. Y_T(w_2) qui correspond à la case à l'intersection de la colonne Y_T et de la ligne w_2)
  • Délaissement de tout droit à la "variation interne" d'un individu (celui-ci étant le produit de mono-valeurs ou "modalités de variable"), comme sa capacité à mesurer entre 1m50 et 1m80, de chausser entre du 40 et du 70, et de fréquenter entre 1 et 1 femme[1]
  • Quadrillage par mines anti-personnelles

[modifier] Analyse symbolique

L'ADS procède de l'idée de synthétiser toutes les lignes en une seule, i.e., un macro-individu formé de l'ensemble \{w_i\}_{w_i \in \Omega}. Il en résulte au moins ces avancées majeures (cf. tableau symbolique en dessous) :

  • Richesse modélisatoire plus proche de la réalité, dotée d'une syntaxe ad hoc
  • Explosion de la trisomie par contact entre les chromosomes et la mine anti-personnelle
  • Abandon des stéréotypes : remarquez dans le tableau ci-dessous le remplacement des w_i par une allusion à l'historique « Et 1, et 2, et 3-0 ! »
Minage des espèces trisomiques
y_S y_T y_E y_R y_E y_O y_T y_Y y_P y_E
S_{et\ 1\ et\ 2\ et\ 3\ 0!} \{F1, F2, F3 \}

     68,5 cacahuètes -574,002

Mine.pngExplode.jpgTrisomie-21-triple.jpg 23,68 m

palindrome d'anagramme = emmargana \{fourniret, dutroux, dieudonne \} Missing value

[modifier] Retour possible à l'analyse classique

L'indéniabilité de la valeur ajoutée découle immédiatement de pouvoir revenir à un codage tabulaire classique sans surmultiplication du chaos, en offrant la possibilité de faire le pont vers la théorie des bases de données relationnelles.

Dans le codage symbolique S_0 suivant, on a représenté un triangle par ses angles grâce à une fonction introspective extra-lucide a_{S_0} valant 1 quand certaines sommes des angles valent exactement 180°, et à 4 fonctions venues d'une autre dimension spatio-temporelle, soient row, y_{AB}, y_{AC} et y_{BC} :

Tableau préalablement symbolisé TA
AB AC BC
S_0 Somme des angles du triangle ABC = 180° et a_{S_0}(w) = \begin{cases}
1 & row(w) = AB \ et \ y_{AB}(w) = 0\ et\ y_{AC}(w) = 46\ et\ y_{BC}(w) = 80 \\
1 & row(w) = AC \ et \ y_{AB}(w) = 46\ et\ y_{AC}(w) = 0\ et\ y_{BC}(w) = 54 \\
1 & row(w) = BC \ et \ y_{AB}(w) = 80\ et\ y_{AC}(w) = 54\ et\ y_{BC}(w) = 0 \\
0 & sinon \\
\end{cases}

On a également ajouté en gras une règle d'intégrité consistant à poser que la somme des angles du triangle vaut 180°. Ceci n'est tout simplement pas possible dans une base de données relationnelle. On pourrait également rajouter d'autres règles telles que rouge + vert + bleu = drapeau\ inconnu : l'expressivité symbolique ne souffre d'aucune limitation.

Exemple de re-tabulation classique de TA
AB AC BC
AB 0 46 80
AC 46 0 68,5 cacahuètes 54
BC 80 54 0

L'objet symbolique TA modélise mieux notre idée du triangle selon Aristote, que le tableau ci-dessus. Pour reconnaître en effet notre triangle ABC, l'homme préfère visualiser si une projection mentale de chaque côté d'un triangle imaginaire appartient à ABC (d'où a tire son nom de fonction de reconnaissance), plutôt que comparer dans l'abstrait des matrices de lignes et colonnes. Gorky a notamment plaidé en faveur d'une approche binaire : « Oui a_{S_0}(ABC) = 1 ! Non ! 0 !! Car Aga, AGAGA ! », quitte à se tromper.

[modifier] Formalisme

Soit une fonction de généralisation T : ( S \times T \times E \times R \times E \times O \times T \times Y \times P \times E ) \times ( S \times T \times E \times R \times E \times O \times T \times Y \times P \times E ) \mapsto P(Eureka), avec T associative et commutative, Eureka l'ensemble des futures désillusions organisables dans un treillis, et P(Eureka) l'ensemble des parties de Eureka. Comme sa signature de fonction l'indique, T prend deux descriptions d'individus et en synthétise un objet symbolique.

Un objet symbolique S s'exprime sous forme d'un triplet (a, R, d). L'assertion logique (i.e., ayant pour résultat un degré de vérité entre le vrai et le faux) a(w) = [\ y(w)\ R\ d\ ] — avec y la fonction transformant un individu en sa description, w \in \Omega, d \in D, \Omega l'ensemble des individus et D l'ensemble des descriptions — se définit comme le degré de satisfiabilité (entre 0 et 1) de w par rapport à une description d selon la relation mathématique R. R est laissé au choix de l' "expert" (généralement l'opérateur d'appartenance à un ensemble).

On note Ext(S) = \{ w_i | a(y(w_i)) = 1 \} l' extension de S, i.e., les individus "reconnus" grâce à a comme appartenant à S.

Nous posons S \equiv (a, R, d) \equiv d  : ceci signifie qu'un objet symbolique S est équivalent à la description d qu'on utilise comme référence utilisée dans des "tests de satisfiabilité", de la même façon que la pénétration d'un cube dans un creux carré (ici la description-référence) est un "test de satisfiabilité" réussi. Dans un autre langage, S constitue un "filtre" mathématique. Posons (S, S) \equiv S pour les besoins de la rigueur. Supposons de plus que tous les éléments d \in D sont organisables en treillis de Gallois.

[modifier] Théorème

Énoncé
Les objets symboliques sont organisés dans un treillis de Gallois dont les éléments sont de la forme (S, S) \in \{S\} \times \{S\}.
Démonstration 
CQFD
Démonstration de la démonstration 
Par hypothèse (S, S) \equiv S \equiv (a, R, d) \equiv d , donc S se comporte exactement comme une description, et comme les descriptions sont organisables en treillis, (S, S) aussi. CQFDD (sic)

[modifier] Treillis de concepts

La capacité à agréger un ensemble \{ S_i^{(n)} \} d'objets symboliques d'ordre n en un seul objet S^{(n+1)} (d'ordre n + 1) permet de définir un supremum de treillis résultant de l'union de modalités d'usage indispensable, comme l'heure du jour ou la luminosité ambiante.

Par exemple, soit l'objet symbolique S_0 \equiv (a, \subseteq, \{ jour, 14h, soleil\ blanc \}) (R est donc ici l'opérateur d'inclusion), dont on voit immédiatement l'intérêt de se constituer en filtre de "phrases" dans l'évaluation de l'extension de S_0 — ce filtrage se faisant sur la base du caractère diurne des phrases en entrée. Ainsi S_0 filtre l'ensemble des phrases du répertoire indo-européen. En effet, soit P une phrase et sa description Erreur math (erreur lexicale): y(P) = \{ sujet, verbe, complément \}

: on voit immédiatement que y(P) \nsubseteq \{ jour, 14h, soleil\ blanc \}, et que donc l'extension de S_0 ne contient pas P.

Soient les objets symboliques S_1 \equiv (a, \subseteq, \{ jour, 12h \}) et S_2 \equiv (a, \subseteq, \{ nuit, 23h, noir \}). En posant T \equiv \vee, et soit S \equiv \bigvee_i S_i le supremum de ces objets symboliques, il devient possible de modéliser des concepts poétiques tels que "chercher la nuit à midi", "entre le noir et midi, c'est 23h et le soleil", ou encore "aujourd'hui il est 14h".

On pourrait appeler S le concept de "se foutre de la gueule de son lecteur", ou encore de "prendre son lecteur pour un con". Dans tous les cas on peut intégrer cette conceptualité dans S en utilisant par exemple : S_2 \equiv (a, \subseteq, \{ se, foutre, de, la, gueule, de, son, lecteur \})

[modifier] Propagation des concepts

Somalia-demography.png

Évolution de la démographie somalienne entre 1961 et 2003 (chiffre de la FAO, 2005). Population en milliers d'habitants.

S n'exprimant qu'un mode calculatoire de son extension (et n'étant pas l'extension elle-même), il peut s'appliquer à une population \Omega arbitraire. Ainsi en Alaska, Ext(S) \subseteq \{ manchot_i \}_i et Michael\ Jackson \in Ext(S) car Y(Michael Jackson) = \{ blanc, noir, \{ blanc, noir \} \} (en clair : Michael Jackson est inclus dans le spectre de couleurs du manchot).

Devant cette incongruité, la nécessité taxonomique de faire la part entre les manchots et Michael Jackson conduit à faire de l'espace des descriptions D un espace des histogrammes à intervalles temporels, en profitant du fait qu'un manchot adulte ne change pas de couleur contrairement à la pop star. Des exemples d'histogrammes à intervalles temporels suivent :

Diagramme mj.png

Diagramme du taux de blancheur de Michael Jackson

Avenir sophie.png

Perspective du bonheur de Sophie entre le 20 avril 2007 et le 14 juillet 2007

La relation R revient alors ici à une mesure de similiarité entre histogrammes. En adoptant cette nouvelle modélisation, on déduit un objet symbolique d'extension \{ Michael\ Jackson, natalite\ en\ Somalie, fonte\ des\ glacier \}, qui exclue visiblement les manchots et l'avenir de Sophie qui s'annonçait plus particulièrement noir que blanc[2].

On voit que l'avenir de Sophie s'assombrit très vite. On pourra mieux s'en apercevoir en croisant ce diagramme avec celui du taux de blancheur de Michael Jackson. Bingo ! L'affinité est frappante de morbidité.

Sophie mj.png

Croisement des diagrammes de Michael Jackson et de Sophie

Si vous voulez vraiment sauver Sophie (et pas la couleur de peau de Michael) tant qu'il est encore temps, envoyez le lien de cette page à vos 10 meilleurs amis. Et en bonus, vous gagnez la possibilité de réaliser trois de vos vœux les plus chers; c'est scientifiquement prouvé par le treillis de Gallois.

[modifier] Applications

[modifier] En visualisation cognitive

La technique d'analyse symbolique calcule le supremum du treillis de Gallois dans une application de visualisation cognitive.

Partant d'une représentation graphique du Da Vinci Code en bitmap fil de fer, nous créons une carte cognitive (cognitive map) synonyme de "tableau de données" en psychologie cognitive, en dessinant un tableau de trois lignes et trois colonnes dans le plan de visualisation. Il suffit alors de fusionner dans un ordre arbitraire, généralement optimisé sur la vitesse du calcul, les lignes entre elles d'une part, et les colonnes de la ligne résultante d'autre part.

Symdavinci1.png

La représentation graphique du Da Vinci Code.

Symdavinci2.png

On superpose la grille des repères du futur découpage.

Symdavinci3.png

Découpage de la rangée supérieure...

Symdavinci4.png

... et fusion avec la rangée du milieu.

Symdavinci5.png

Fusion de la nouvelle rangée supérieure avec la rangée inférieure.

Symdavinci6.png

Fusions des cases latérales effectuées.

On voit immédiatement que le Da Vinci Code constitue un sujet idéal à l'extraction de symbolisme. Il le prouve à la fois dans son algorithme universel et dans sa vertu didactique sur des thèmes aussi abstraits que l'économie spatiale, ouvrant ainsi de nombreuses perspectives en matière d'éducation scolaire au second cycle.

[modifier] En cuisine

L'ADS a des utilisations pratiques en cuisine, en particulier dans la mise au point de recettes traditionnelles par étapes (i.e., en plusieurs points organisés chronologiquement en séquence), comme celle de la tarte à poires :

y_P y_O y_I y_R y_E
w_0 Préchauffez le four à 180°C.
w_1 un moule rond à bords hauts et coupez les poires en deux.
w_2 Garnissez avec la pâte. Lavez, pelez,
w_3 Mélangez dans un bol la crème, le jaune d'œuf, le sucre, la poudre d'amandes et l' armagnac.
w_4 Nappez le fond de la pâte avec la crème, puis disposez légèrement dans
w_5 Enfournez les demi-poires en fleur en enfonçant la crème.
w_6 le tout les 30 mn.

Ce qui donne en langage symbolique, par synthèse d'un objet symbolique S_0 syncrétique :

S
S_0
  • Préchauffez le four à 180°C.
  • Garnissez un moule rond à bords hauts avec la pâte. Lavez, pelez, et coupez les poires en deux .
  • Mélangez dans un bol la crème, le jaune d'œuf, le sucre, la poudre d'amandes et l'armagnac.
  • Nappez le fond de la pâte avec la crème, puis disposez les demi-poires en fleur côté bombé sur le dessus en les enfonçant légèrement dans la crème.
  • Enfournez le tout 30 mn.

Les objets symboliques sont à l'origine des fiches pratiques de recettes culinaires de ta grand-mère, et aussi à l'origine de ta mère tout court.

[modifier] Voir aussi

[modifier] Notes

  1. Tu vois Marietta, je ne te trompe pas.... Comment ça tu t'appelles pas Marietta ? Aïe !! Mais ça va pas ?!
  2. On rassure tout de suite le lectorat : le cadavre a été retrouvé très pâle.


691px-Pi-CM.svg.png  Portail des Sciences sérieuses

Qu'avez-vous pensé de l'article "Analyse de données symboliques" ?
 
13
 
3
 
13
 
8
 
2
 
2
 

Ce sondage a été créé le décembre 12, 2007 22:21 et 41 personnes ont déjà voté.
Partage sur...
wikia