Shopping Cart
Your Cart is Empty
Quantity:
Subtotal
Taxes
Shipping
Total
There was an error with PayPalClick here to try again
CelebrateThank you for your business!You should be receiving an order confirmation from Paypal shortly.Exit Shopping Cart

                                                             Logistic Regression                        الإنحدار اللوجستي البسيط والمتعدد

 تحليل الإنحدار اللوجستي البسيط والمتعدد 

 يستخدم تحليل الإنحدار اللوجستي في الدراسات الوبائية والطبية والذي من خلاله يتم تحديد المتغيرات المستقلة الكمية والنوعية التي تؤثر في إحتمال حدوث المتغير الناتج. عندما يتم تطبيق الإنحدار اللوجستي فلابد أن يكون متغير النتيجة ثنائي التفسير يحمل الترميز 0 و 1

 المطلوب في الإنحدار اللوجستي البسيط

  واحد متغير مستقل كمي أو اسمي مثل الوزن ، الطول ، الحالة الإجتماعية ، الجنس

 واحد متغير إسمي تابع ثنائي النوع مثل وجود المرض ( نعم ، لا ) نوع الجنس ( ذكر ، أنثى ) وغيرها

  المطلوب في الإنحدار اللوجستي المتعدد

  إثنان أو أكثر من المتغيرات المستقلة الكمية أو الإسمية مثل الوزن ، الطول ، الحالة الإجتماعية ، الجنس

 واحد متغير إسمي تابع ثنائي النوع مثل وجود المرض ( نعم ، لا ) نوع الجنس ( ذكر ، أنثى ) وغيرها

 يساعدنا استخدام الإنحدار اللوجستي في التالي

 التنبأ في إحتمال وقوع مشاهدات الدراسة في إحدى نواتج المتغير التابع (متغير النتيجة) الذي يرمز له 0 ، 1 عن طريق معرفتنا بالمتغيرات المستقلة التفسيرية ذات النوع الكمي والإسمي وذات الدلالة الإحصائية فلو افترضنا بأن المتغير الإسمي التابع هو وجود المرض الذي يرمز له ( 0= غير موجود ، 1= موجود ) ونريد معرفة علاقة المتغيرات المستقلة الكمية أو النوعية في إحتمال حدوث المرض من عدمة بمعرفة نسبة الأرجحية ومعامل الإنحدار اللوجستي

 معادلة خط الإنحدار اللوجستي

(Y) Log odds of the outcome = (b0) + b1X1 + b2X2 + b3X3 + .........

 تعني المتغير التابع الذي يرمز له 0 و 1 Y

تعني الثابت وهو معامل الإنحدار اللوجستي للمتغير التابع عندما تكون قيمة المتغير المستقل صفر A

تعني معامل الإنحدار اللوجستي الذي يوضح مقدار التغير في المتغير التابع في حالة التغير بوحدة واحدة للمتغير المستقل B

تعني المتغير المستقل الذي يؤثرعلى المتغير التابع X

 شروط الإنحدار اللوجستي

أولا : يجب أن تكون العينة كبيرة وممثلة للسكان

ثانيا : يجب أن يكون هناك علاقة ارتباط بين المتغيرات المستقلة والمتغير التابع

يتم قياس العلاقة عن طريق التحليل الأحادي بين المتغير المستقل والمتغير التابع بأستخدام اختبار مربع كاي ، بيرسون ، سبيرمان أو عن طريق نموذج الإنحدار اللوجستي بشكل فردي بين المتغيرين

ثالثا : يجب أن يكون هتاك علاقة ارتباط بين اللوغارثم للمتغير التابع والمتغير التفسيري ذو النوع المستمر أو الترتيبي

لابد من إنشاء متغير جديد يوضح قيمة اللوغارثم للمتغير التابع وبعدها يتم إكتشاف العلاقة بين المتغيرين

رابعا : يجب أن يكون الإرتباط بين المتغيرات التفسيرية ضعيف

راجع العلاقة الخطية المتداخلة في تحليل الإنحدار المتعدد 

 عملية الترميز في تحليل الإنحدار اللوجستي

التفسير للحالة

الحالة

الترميز 

النتيجة سلبية  

غياب المرض

0

التنيجة إيجابية

وجود المرض

1

عامل الخطر سلبي

غياب عامل الخطر

0

عامل الخطر إيجابي

وجود عامل الخطر 

1

 العلاقة بين المرض وعامل الخطر

 سوف نتطرق بالتفصيل لحساب نسبة الأرجحية الغير مضبوطة وبالتالي سنتعرف على الأرجحية المضبوطة والمتعلقة بنموذج الإنحدار اللوجستي والتي يمكن استخدامها في الدراسات الوبائية مثل دراسة الحالة والشاهد ، دراسة المقطع العرضي والتجارب الطبية

 نسبة الأرجحية الغير مضبوطة تعني عدم وجود تأثير للعوامل أو المتغيرات المربكة والتي قد تتسبب في التقدير المبالغ للعلاقة بين المتغيرات بينما الأرجحية المضبوطة يتم استخدمها في نموذج الإنحدار اللوجستي وذلك من أجل ضبط العوامل المربكة والحد منها

المجموع

الحالة

الترميز 


A+B

B

A

وجود عامل الخطر

C+D


 C

غياب عامل الخطر


B+D 

A+C 

المجموع

  Binary level Odds Ratio نسبة الأرجحية للمتغير الثنائي

 (A/B) / (C/D)

(A x D) / (B x C)  

مثال 

المجموع

الحالة

الترميز 


70

30

40

وجود عامل الخطر

130

70

60

غياب عامل الخطر

200

100

100

المجموع

نسبة الأرجحية في حالة التعرض وحدوث المرض = (30/40) / (70/60) = 0.8/1.6 = 2

 نسبة الأرجحية في حالة عدم التعرض وحدوث المرض = (70/60) / (30/40) = 1.6/0.8 = 0.5

 إذا كانت نسبة الأرجحية = 1 ، فهذا يعني بأن نسبة أرجحية المرض في الأشخاص المعرضين والغير معرضين متساوية وبذلك لا يوجد فرق بينهم ولا توجد علاقة بين المرض والمسبب

 إذا كانت نسبة الأرجحية > أكبر من 1 ، فهذا يعني بأن نسبة أرجحية المرض في الأشخاص المعرضين لعامل الخطر أكبر من نسبة أرجحية المرض في الغير معرضين وبذك يتضح وجود علاقة موجبة ضارة بين المرض والمسبب

في المثال السابق نستطيع أن نفسر العلاقة الأولى بين حدوث المرض وحالة التعرض بالشكل الإيجابي حيث أن نسبة الأرجحية أكبر من 1 وتساوي 2 وبذلك فإن أرجحية المرض في الأشخاص المعرضين لعامل الخطر أكبر مرتين من نسبة أرجحية المرض في الأشخاص الغير معرضين لنفس عامل الخطر

 يمكن أيضا تفسير العلاقة بين حدوث المرض وعدم التعرض لنفس البيانات بالشكل السلبي الوقائي حيث أن نسبة الأرجحية اصغر من 1 وتساوي 0.5 وبذلك فإن أرجحية المرض في الأشخاص الغير معرضين لعامل الخطر اقل 50% من نسبة أرجحية المرض في الأشخاص المعرضي لنفس عامل الخطر 

   Multiple levels Odds Ratio نسبة الأرجحية للمتغير المتعدد المستويات

نسبة الأرجحية

الحالة

الترميز 

مؤشر كتلة الجسم BMI 

 21 / 30 = 0.7

30

21

1

31 / 26 = 1.192 / 0.7 = 1.70 

26

31

2

24 / 11 = 2.81 / 0.7 = 3.11

11

24

3

17 / 4 = 4.25 / 0.7 = 6.07

4

17

4

 طريقة بناء نموذج الإنحدار اللوجستي

 أولا : تحقيق العلاقة بين المتغير التابع الإسمي الثنائي والمتغير المستقل الإسمي وذلك عن طريق التحليل الأحادي بأستخدام مربع كاي وأختبار الإرتباط 

 ثانيا : تحقيق علاقة الإرتباط بين لوغارثم المتغير التابع الإسمي الثنائي والمتغير المستقل الكمي المستمر عن طريق مخطط التشتت بين المتغيرين حيث لابد أن تكون العلاقة موجبه

  ثالثا : تحليل العلاقة الخطية المتداخلة بين المتغيرات المستقلة

 

العلاقة الخطية المتداخلة راجع الرابط التالي تحليل

 رابعا : الإضافة والحذف في النموذج

 

 طريقة الحذف والإضافة طريقة الحذف والإضافة

Logistic Regression

Binomial or binary logistic regression can be used to predict the probability of the observation takes one of two groups dichotomous outcome variable. The explanatory variables can be continuous or categorical.

The requirements for simple logistic regression :

1- One dependent binary variable such as sex ( male, female ) presence of disease ( yes, no )

2- One Independent continuous or categorical variables such as( height, time of exercise, gender, marital status )

The requirements for multiple logistic regression :

1- One dependent binary variable such as sex ( male, female ) presence of disease ( yes, no )

2- Two or more Independent continuous or categorical variables such as( height, time of exercise, gender, marital status )  

The using of logistic regression :


It can be used to predict the probability of the categorical dependent variable based on one or more categorical and continuous predictors. Logistic regression helps to calculate the adjusted odds ratio for the effects of other variables in the model.


Logistic regression is the method for examining associations in epidemiological studies such as cross sectional study and case-control study where the outcome is binary for predicting a subject is a case or a control.  

The Logistic Regression Equation:

The logistic regression equation is written as:

(Y) Log odds of the outcome = (b0) + b1X1 + b2X2 + b3X3 + .........

Y : The log odds of the outcome coded ( 0 , 1 )

A : Constant, Intercept, the coefficient of Y when X = 0

B : It is the rate of change in Y with a unit change in X

X : The independent variable that predict the probability of the outcome

Assumption

1- ) The sample must be representative of the population.

2- ) The relationship should be strong between the outcome and the explanatory variables.

3- ) The relationship must be linear between the logit transformation of the dependent variable and the continuous independent variable

4- ) No multicollinearity .

Coding in logistic regression

Coding

Condition

Interpretation

0

disease absent 

negative outcome  

1

disease Present 

positive exposure 

0

risk factor absent  

negative outcome  

1

risk factor present 

positive exposure 

Measuring the relationship between disease and exposure

Both odds ratio and relative risk are used to describe the magnitude of the relationship between the outcome and the exposure variables.


If the odds ratio or relative risk = 1, it means that there is no association between the disease and the exposure variables. The odds ratio and relative risk of the disease are equal in both exposed and non-exposed group.


If the odds or relative risk > 1, it means that there is a positive association between the disease and the exposure variables. The odds ratio and relative risk of the disease are higher in exposed than non-exposed group.


If the odds or relative risk < 1, it means that there is a negative association between the disease and the exposure variables. The odds ratio and relative risk of the disease are lower in exposed than non-exposed group.  


Disease present

Disease absent

 Total

Exposure present 

A

B

 A+B

 Exposure absent 

C

D

C+D 

Total 

A+C

B+D

 N 

Odds ratio for binary variable   

Odds Ratio = odds of exposed group / odds of non-exposed group  

(A/B) / (C/D)

(A x D) / (B x C) 

Example :


Disease present

Disease absent

 Total

Exposure present 

40

30

70

 Exposure absent 

60

70

130

Total 

100

100

200

Odds ratio = (40/30) / (60/70) = 1.6 / 0.8 = 2

The odds of the disease in exposed group is twice higher compared to the non-exposed group.The odds ratio is higher than 1, the association is positive between the outcome and the exposure.

Odds ratio = (60/70) / (40/30) = 0.8 / 1.6 = 0.5

The odds of the disease in non-exposed group is 50% lower than the exposed group. The odds ratio is lower than 1, the association is negative between the outcome and the exposure. 

 Odds ratio for multiple variables   

Group

Cases

Controls

Odds ratio

1

21

30

 21 / 30 = 0.7

2

31

26

31 / 26 = 1.192 / 0.7 = 1.70 

3

24

11

24 / 11 = 2.81 / 0.7 = 3.11

4

17

4

17 / 4 = 4.25 / 0.7 = 6.07

Fitting the logistic regression model :


1-) Univariate analysis that amis to detect whether there is any significant relationship between the outcome variable and all explanatory categorical variables, this can be done by using chi-square test, pearson correlation, spearman correlation or using logistic regression model.


2-) Univariate analysis that amis to detect whether there is any significant relationship between the logit transformation of the outcome variable and all explanatory continuous variables, the relationship should be linear, this can be done by using pearson correlation, spearman correlation.


3-) Multicollinearity analysis : see the multiple regression analysis Multicollinearity analysis


4-) Multivariate analysis that aims to find the best logistic regression model on the univariate resulted variables. The techniques that can be used to investigate the model for the multivariate analysis is given by the following :  

A-) Backward technique : we start to include all independent variables in the model. The regression coefficients are estimated, and the explanatory variables that not statistically significant are removed from the model, and re-estimate the regression coefficient again until no more independent variables are significant

B-) Forward technique : we start with the first high correlated independent variable which is significant ( p < 0.05 ) and will be added in the model. The variable that would have the next highest value of correlation is then assessed to check the p-value. This procedure continues until no more independent variables are significant.

                                                        
0