Analyse de données symboliques
Un article de la désencyclopédie.
L' analyse de données symboliques (ADS) généralise l'analyse de données (AD, ou statistique exploratoire multidimensionnelle) à de nouveaux types de données en établissant un cadre de modélisation mathématique à base de types de données structurées allant au-delà de l'expressivité tabulaire classique. Ainsi au lieu du traditionnel « Vous reprendriez bien un peu de tableaux de brocolis et de chou-fleurs ? », prendra place un savant « Vous reprendriez bien un peu de
? », lors d'une adresse à vos invités de soirée. La capacité à encapsuler un concept statistico-philosophique — comme la table, ou la chaise touchant le salaire minimum dans les villes d'un ensemble des fournisseurs d'un produit P1 donné — dans un objet intensionnel plutôt qu' extensionnel, dans le sens où elle rationalise la pratique de l'échantillonnage en statistique traditionnelle —, constitue une véritable clé de voûte dans la mise en œuvre des fameux treillis de Gallois.
NB : L'analyse de données symboliques n'est pas à confondre avec l'analyse symbolique de données.
Enfin, dans son effort d'exprimer une logique statistique dans son langage à lui, l'ADS constitue un outil privilégié de l'expert en connerie dans son domaine métier, car le problème se trouve exprimé dans les termes de son langage.
Sommaire |
[modifier] Principe
[modifier] Analyse classique
Selon l'AD classique, chaque individu d'un ensemble à analyser se réduit à un point dans l'espace formé du produit cartésien
, celui-ci puisant ses racines dans 
![]()

![]()

![]()

![]()

![]()

![]()

![]()

![]()

![]()

![]()

![]()

![]()

![]()

![]()

![]()

![]()

![]()

![]()

![]()

![]()

![]()

![]()

![]()

![]()
, dont l'application standard est le Démineur.
Soit un tableau de données dans cet espace (en notant
la fonction
, avec
l'espace des "individus", ou "entités arbitraires", qui fait correspondre un individu réel à une entité purement descriptive de l'ensemble
).
| | | | | | | | |
| |
|---|---|---|---|---|---|---|---|---|---|---|
| 23,68 m | | | |||||||
| 68,5 cacahuètes |
| ||||||||
| | | ||||||||
| Missing value | palindrome d'anagramme = emmargana |
Les déficiences de cette représentation des données sont criardes :
- Absence de treillis de Gallois
- Trisomie (cf.
qui correspond à la case à l'intersection de la colonne
et de la ligne
)
- Délaissement de tout droit à la "variation interne" d'un individu (celui-ci étant le produit de mono-valeurs ou "modalités de variable"), comme sa capacité à mesurer entre 1m50 et 1m80, de chausser entre du 40 et du 70, et de fréquenter entre 1 et 1 femme[1]
- Quadrillage par mines anti-personnelles
[modifier] Analyse symbolique
L'ADS procède de l'idée de synthétiser toutes les lignes en une seule, i.e., un macro-individu formé de l'ensemble
. Il en résulte au moins ces avancées majeures (cf. tableau symbolique en dessous) :
- Richesse modélisatoire plus proche de la réalité, dotée d'une syntaxe ad hoc
- Explosion de la trisomie par contact entre les chromosomes et la mine anti-personnelle
- Abandon des stéréotypes : remarquez dans le tableau ci-dessous le remplacement des
par une allusion à l'historique « Et 1, et 2, et 3-0 ! »
| | | | | | | | |
| |
|---|---|---|---|---|---|---|---|---|---|---|
|
| |||||||||
[modifier] Retour possible à l'analyse classique
L'indéniabilité de la valeur ajoutée découle immédiatement de pouvoir revenir à un codage tabulaire classique sans surmultiplication du chaos, en offrant la possibilité de faire le pont vers la théorie des bases de données relationnelles.
Dans le codage symbolique
suivant, on a représenté un triangle par ses angles grâce à une fonction introspective extra-lucide
valant 1 quand certaines sommes des angles valent exactement 180°, et à 4 fonctions venues d'une autre dimension spatio-temporelle, soient
,
,
et
:
| |
| |
|---|---|---|---|
| Somme des angles du triangle ABC = 180° et
| ||
On a également ajouté en gras une règle d'intégrité consistant à poser que la somme des angles du triangle vaut 180°. Ceci n'est tout simplement pas possible dans une base de données relationnelle. On pourrait également rajouter d'autres règles telles que
: l'expressivité symbolique ne souffre d'aucune limitation.
| |
| |
|---|---|---|---|
| 0 | 46 | 80 |
| 46 | 0 | |
| 80 | 54 | 0 |
L'objet symbolique TA modélise mieux notre idée du triangle selon Aristote, que le tableau ci-dessus. Pour reconnaître en effet notre triangle ABC, l'homme préfère visualiser si une projection mentale de chaque côté d'un triangle imaginaire appartient à ABC (d'où
tire son nom de fonction de reconnaissance), plutôt que comparer dans l'abstrait des matrices de lignes et colonnes. Gorky a notamment plaidé en faveur d'une approche binaire : « Oui
! Non !
!! Car Aga, AGAGA ! », quitte à se tromper.
[modifier] Formalisme
Soit une fonction de généralisation
, avec
associative et commutative,
l'ensemble des futures désillusions organisables dans un treillis, et
l'ensemble des parties de
. Comme sa signature de fonction l'indique,
prend deux descriptions d'individus et en synthétise un objet symbolique.
Un objet symbolique
s'exprime sous forme d'un triplet
. L'assertion logique (i.e., ayant pour résultat un degré de vérité entre le vrai et le faux)
— avec
la fonction transformant un individu en sa description,
,
,
l'ensemble des individus et
l'ensemble des descriptions — se définit comme le degré de satisfiabilité (entre 0 et 1) de
par rapport à une description
selon la relation mathématique
.
est laissé au choix de l' "expert" (généralement l'opérateur d'appartenance à un ensemble).
On note
l' extension de
, i.e., les individus "reconnus" grâce à
comme appartenant à
.
Nous posons
: ceci signifie qu'un objet symbolique
est équivalent à la description
qu'on utilise comme référence utilisée dans des "tests de satisfiabilité", de la même façon que la pénétration d'un cube dans un creux carré (ici la description-référence) est un "test de satisfiabilité" réussi. Dans un autre langage,
constitue un "filtre" mathématique. Posons
pour les besoins de la rigueur. Supposons de plus que tous les éléments
sont organisables en treillis de Gallois.


















