Statistics Toolbox

Statistiques multivariables

Les statistiques multivariables offrent des algorithmes et des fonctions pour analyser plusieurs variables. Les applications classiques incluent la réduction de dimensionnalité par transformation et sélection de fonctions, et l’exploration des relations entre les variables à l’aide de techniques de visualisation, telles que les matrices de nuages de points et le cadrage multidimensionnel classique.

Ajustement d’une régression orthogonale à l’aide d’une analyse en composantes principales (Exemple)
Mise en œuvre de la régression de Deming (moindres carrés total).

Transformation de fonctions

La transformation de fonctions (parfois appelée extraction des fonctions) est une technique de réduction de dimensionnalité qui transforme les fonctions existantes en de nouvelles fonctions (variables prédictives) pour lesquelles les fonctions moins descriptives peuvent être ignorées. La boîte à outils propose les approches de transformation de fonctions suivantes :

Régression partielle des moindres carrés et régression en composantes principales (Exemple)
Modélisation d’une variable réponse en présence de prédicteurs hautement corrélés.

Sélection des fonctions

La sélection des fonctions est une technique de réduction de dimensionnalité qui sélectionne uniquement le sous-ensemble des fonctions mesurées (variables prédictives) qui fournissent les meilleures capacités de prédiction pour la modélisation des données. Cette technique est utile lorsque vous travaillez avec des données de haute dimension ou lorsque la collecte des données de toutes les fonctions est trop onéreuse

Les méthodes de sélection des fonctions incluent les éléments suivants :

  • La régression pas à pas ajoute ou supprime séquentiellement des fonctions jusqu’à ce que les capacités de précision des prédictions soient optimisées au maximum. Cette méthode peut être utilisée avec des algorithmes de régression linéaire ou de régression linéaire généralisée.
  • La sélection séquentielle des fonctions est similaire à la régression pas à pas et peut être utilisée avec n’importe quel algorithme d’apprentissage supervisé et une mesure de performance personnalisée.
  • La régularisation (lasso et elastic net) utilise des estimateurs de diminution pour supprimer les fonctions redondantes en réduisant leurs poids (coefficients) à zéro.

La sélection des fonctions peut être utilisée pour :

  • améliorer la précision d’un algorithme d’apprentissage automatique.
  • améliorer les performances sur des données de très haute dimension.
  • améliorer l’interprétabilité du modèle.
  • empêcher le surajustement.

Sélection de fonctions pour le classement des données de haute dimension (Exemple)
Sélectionner les fonctions importantes pour la détection du cancer.

Visualisation multivariée

La Statistics Toolbox propose des graphiques et des diagrammes pour explorer visuellement des données multivariables, y compris :

  • des matrices de nuages de points.
  • des dendrogrammes.
  • des diagrammes de double projection.
  • des diagrammes de coordonnées parallèles.
  • des graphiques d’Andrews.
  • des diagrammes glyphes.
Matrice de nuage de points groupée montrant comment l’année du modèle a un impact sur les différentes variables.
Matrice de nuage de points groupée montrant comment l’année du modèle a un impact sur les différentes variables.
Diagramme de double projection montrant les trois premiers chargements à partir de l’analyse en composantes principales.
Diagramme de double projection montrant les trois premiers chargements à partir de l’analyse en composantes principales.
Diagramme d’Andrews montrant comment le pays d’origine a un impact sur les variables.
Diagramme d’Andrews montrant comment le pays d’origine a un impact sur les variables.
Point suivant: Distribution de probabilités

Essayer Statistics Toolbox

Obtenir une version d'évaluation

Machine Learning with MATLAB

Visionner le webinar