Statistics Toolbox

Régression et ANOVA

Régression

Avec la régression, il est possible de modéliser une variable de réponse continue comme une fonction d’un prédicteur ou plus. La Statistics Toolbox offre une large variété d’algorithmes de régression, dont : la régression linéaire, les modèles linéaires généralisés, la régression non linéaire et les modèles à effets mixtes.

Régression linéaire

La régression linéaire est une technique de modélisation statistique utilisée pour décrire une variable de réponse continue comme une fonction d’une ou plusieurs variables prédictives. Elle peut vous aider à comprendre et prévoir le comportement de systèmes complexes, ou à analyser des données biologiques, financières et expérimentales.

La boîte à outils propose plusieurs types de modèles de régression linéaire et des méthodes d’ajustement dont voici quelques exemples :

  • Simple : modèle avec un seul prédicteur
  • Multiple : modèle avec plusieurs prédicteurs
  • Multivariable : modèle avec plusieurs variables réponses
  • Robuste : modèle avec des valeurs aberrantes
  • Pas à pas : modèle avec sélection automatique de variables
  • Régularisée : modèle pouvant gérer les prédicteurs redondants et empêcher le surajustement à l’aide d’algorithmes elastic net, lasso et ridge

Statistique computationnelle : sélection des fonctions, régularisation et diminution avec MATLAB 36:51
Génération d'ajustements précis en présence de données corrélées.

Régression non linéaire

La régression non linéaire est une technique de modélisation statistique qui aide à décrire les relations non linéaires dans les données expérimentales. Les modèles de régression non linéaire sont généralement considérés comme paramétriques, où le modèle est décrit comme une équation non linéaire. Généralement, les méthodes d’apprentissage automatique sont utilisées pour la régression non linéaire non paramétrique.

La boîte à outils permet également un ajustement non linéaire robuste pour gérer les valeurs aberrantes dans les données.

Ajustement avec MATLAB : statistiques, optimisation et ajustement de courbes 38:37
Application d'algorithmes de régression avec MATLAB.

Modèles linéaires généralisés

Les modèles linéaires généralisés sont des cas exceptionnels de modèles non linéaires qui utilisent des méthodes linéaires. Ils permettent des distributions non normales de variables réponses et associent une fonction lien qui décrit comment la valeur attendue de la réponse est liée aux prédicteurs linéaires.

La Statistics Toolbox prend en charge l’ajustement des modèles linéaires généralisés avec les distributions de réponse suivantes :

  • Normal (régression probit)
  • Binomial (régression logistique)
  • Poisson
  • Gamma
  • Gaussienne inverse

Ajustement de données avec des modèles linéaires généralisés (Exemple)
Comment ajuster et évaluer les modèles linéaires généralisés à l’aide de glmfit et de glmval.

Modèles à effets mixtes

Les modèles à effets mixtes linéaires et non linéaires sont des généralisations de modèles linéaires et non linéaires pour les données qui sont collectées et classées par groupe. Ces modèles décrivent la relation entre une variable réponse et des variables indépendantes avec des coefficients qui peuvent varier en ce qui concerne une ou plusieurs variables de groupe.

La Statistics Toolbox prend en charge l’ajustement des modèles hiérarchiques ou multi-niveaux avec des effets aléatoires croisés et/ou imbriqués, qui peuvent être utilisés pour réaliser diverses études, y compris :

  • des analyses longitudinales/de panels.
  • des modélisations de mesures répétées.
  • des modélisations de croissance.
Graphique comparant le produit intérieur brut de trois états et ajusté à l’aide d’un modèle à effets mixtes multi-niveaux (gauche) et de la méthode des moindres carrés ordinaire (droite). La fonction fitlme de la Statistics Toolbox permet d’améliorer l’exactitude prédictive des modèles lorsque les données sont collectées et classées par groupe.
Graphique comparant le produit intérieur brut de trois états et ajusté à l’aide d’un modèle à effets mixtes multi-niveaux (gauche) et de la méthode des moindres carrés ordinaire (droite). La fonction fitlme de la Statistics Toolbox permet d’améliorer l’exactitude prédictive des modèles lorsque les données sont collectées et classées par groupe.

Évaluation du modèle

La Statistics Toolbox vous permet d’effectuer une évaluation de modèle pour les algorithmes de régression en utilisant des tests de signification statistique et des mesures de qualité d’ajustement qui incluent :

  • les statistiques F et T.
  • R2 et R2 ajusté.
  • l’erreur quadratique moyenne par validation croisée.
  • le critère d’information Akaike (AIC) et le critère d’information Bayesian (BIC).

Vous pouvez calculer les intervalles de confiance pour les coefficients de régression et les valeurs estimées.

Régression non paramétrique

La Statistics Toolbox prend également en charge les techniques de régression non paramétrique pour la génération d’ajustements précis sans modèle spécifié décrivant la relation entre le prédicteur et la réponse. Ces techniques peuvent être plus largement classées dans l’apprentissage automatique supervisé pour la régression et incluent les arbres de décision, ainsi que les arbres de régression de boosting et de bagging.

Ajustement non paramétrique 4:07
Développez un modèle prédictif lorsque vous ne pouvez pas définir de fonction décrivant les relations entre les variables.

ANOVA

L’analyse de la variance (ANOVA) permet d’attribuer une variance d’un échantillon à différentes sources et de déterminer si la variation survient dans ou entre les différents groupes de population. La Statistics Toolbox inclut ces algorithmes ANOVA et des techniques associées :

Point suivant: Apprentissage automatique

Essayer Statistics Toolbox

Obtenir une version d'évaluation

Machine Learning with MATLAB

Visionner le webinar