Modèle de logit

Bonjour, je suis un doute sur l`ajout de terme d`interaction dans un modèle. Lorsque nous ajoutons le terme d`interaction dans un modèle et comment interpréter le coefficient d`interaction. Si vous avez un peu de papier ou de livre, veuillez l`envoyer à moi. Ça m`aide beaucoup. Merci de noter que les probabilités pi et les coefficients de régression ne sont pas observés, et les moyens de les déterminer ne font pas partie du modèle lui-même. Ils sont généralement déterminés par une sorte de procédure d`optimisation, par exemple l`estimation de la probabilité maximale, qui trouve les valeurs qui correspondent le mieux aux données observées (c.-à-d. qui donnent les prédictions les plus exactes pour les données déjà observées), généralement sous réserve de les conditions de régularisation qui cherchent à exclure des valeurs improbables, par exemple des valeurs extrêmement importantes pour l`un des coefficients de régression. L`utilisation d`une condition de régularisation équivaut à l`estimation du maximum a posteriori (MAP), une prolongation de la probabilité maximale. (La régularisation se fait le plus souvent à l`aide d`une fonction de régularisation au carré, ce qui équivaut à placer une distribution gaussienne de moyenne zéro sur les coefficients, mais d`autres régularizers sont également possibles.) Que la régularisation soit ou non utilisée, il n`est généralement pas possible de trouver une solution de forme fermée; au lieu de cela, une méthode numérique itérative doit être utilisée, telle que les moindres carrés itérativement repondérés (IRLS) ou, plus couramment ces jours, une méthode quasi-Newton telle que la méthode L-BFGS. La régression logistique, également appelée modèle logit, est utilisée pour modéliser des variables de résultats dichotomes. Dans le modèle logit, les cotes logarithmique du résultat sont modélisées comme une combinaison linéaire des variables prédictitrices. La régression logistique est unique en ce qu`elle peut être estimée sur des données déséquilibrées, plutôt que sur des données échantillonnées aléatoirement, et donne toujours des estimations correctes des coefficients des effets de chaque variable indépendante sur le résultat. Autrement dit, si nous formons un modèle logistique à partir de ces données, si le modèle est correct dans la population générale, les paramètres β j {displaystyle beta _ {j}} sont tous corrects sauf pour β 0 {displaystyle beta _ {0}}.

Nous pouvons corriger β 0 {displaystyle beta _ {0}} si nous connaissons la prévalence réelle comme suit: [33] si la déviance du modèle est significativement plus petite que la déviance nulle, on peut conclure que le prédicteur ou l`ensemble de prédicteurs a sensiblement amélioré l`ajustement du modèle. Ceci est analogue au test F utilisé dans l`analyse de régression linéaire pour évaluer l`importance de la prédiction. [29] deux mesures de déviance sont particulièrement importantes dans la régression logistique: déviance nulle et déviance du modèle. La déviation null représente la différence entre un modèle avec seulement l`interception (ce qui signifie «pas de prédicteurs») et le modèle saturé. La déviance du modèle représente la différence entre un modèle avec au moins un prédicteur et le modèle saturé. [29] à cet égard, le modèle null fournit une ligne de base sur laquelle comparer les modèles de prédicteurs. Étant donné que la déviance est une mesure de la différence entre un modèle donné et le modèle saturé, les valeurs plus petites indiquent un meilleur ajustement. Ainsi, pour évaluer la contribution d`un prédicteur ou d`un ensemble de prédicteurs, on peut soustraire la déviance du modèle de la déviance nulle et évaluer la différence sur une distribution de khi s − p 2, {displaystyle chi _ {s-p} ^ {2},} avec degrés de liberté [14] égale à la différence dans le nombre de paramètres estimés. Dans les modèles GLM, est-il possible d`utiliser une fonction de médiane au lieu d`une fonction de la moyenne de la réponse dans le lien logit? J`utiliserais une distribution dont la médiane est plus simple que moyenne.