multiple regression

 يستخدم تحليل الإنحدار الخطي المتعدد لدراسة العلاقة أو التنبأ بين عدة متغيرات مستقلة مع المتغير التابع المستمر. المتغيرات المستقلة التفسيرية قد تكون مستمرة أو فئوية فإذا قام الباحث بدراسة أثر أكثر من متغير واحد مستقل على متغير تابع مستمر فأنه يستخدم في هذه الحالة تحليل الإنحدار الخطي المتعدد ، فعلى سبيل المثال استخدام العمر والجنس كمتغير مستمر والآخر فئوي للتنبؤ بمقياس ضغط الدم الذي يعتبر متغير تابع مستمر

 المطلوب في الإنحدار الخطي المتعدد

إثنان أو أكثر من المتغيرات المستقلة الكمية أو النوعية مثل الوزن ، الطول ، الحالة الإجتماعية ، الجنس

واحد متغير تابع كمي النوع مثل الطول ، ضغط الدم ، نسبة الكوليسترول

 يساعدنا استخدام الإنحدار الخطي المتعدد في التالي

 أولا : التنبأ بقيم المتغير التابع ( متغير النتيجة ) عن طريق معرفتنا بقيم المتغيرات المستقلة التفسيرية ذات الدلالة الإحصائية فلو افترضنا بأن عدد الكتب المقرؤة قبل الإختبار ونوع الجنس الطالب يمثلان المتغيران المستقلين بتأثيرهما على المتغير التابع ( درجات الطلاب في مادة الإحصاء الحيوي ) وبذلك نتنبأ بدرجات الطلاب من خلال عدد الكتب المقرؤة بعد ضبط جنس الطالب كان ذكرا أو أنثى

 ثانيا : تحديد مقدار التباين والإختلاف في المتغير التابع بنموذج الإنحدار والمفسر من قبل المتغيرات المستقلة ذات الدلالة الإحصائية فلو افترضنا بأن عدد الساعات التي يقضيها الشخص في ممارسة الرياضة ونوع الجنس يمثلان المتغيران المستقلين بتأثيرهما على المتغير التابع ( نسبة الكوليسترول في الدم ) وبذلك نستطيع أن نقدر التباين المفسر من قبل هذه المتغيرات المستقلة على المتغير التابع بأستخدام معامل التحديد

 معادلة خط الإنحدار المتعدد

………………+ Y=a(b0) + b1X1 +b2X2 +b3X3

 تعني المتغير التابع الذي يتأثر بالمتغير المستقل Y

تعني الثابت وهو قيمة المتغير التابع عندما تكون قيمة المتغير المستقل صفر A

تعني ميل الخط المستقيم الذي يوضح مقدار قيمة التغير في المتغير التابع في حالة التغير بوحدة واحدة للمتغير المستقل B

تعني المتغير المستقل الذي يؤثرعلى المتغير التابع X

  شروط الإنحدار الخطي المتعدد

أولا : يجب أن تكون العينة كبيرة وممثلة للسكان

ثانيا : يجب أن يكون هناك علاقة ارتباط بين المتغيرات المستقلة والمتغير التابع

ثالثا : تجانس التباين خلال فترة النموذج

رابعا : يجب أن يكون الإرتباط بين المتغيرات التفسيرية ضعيف

خامسا : يجب أن يكون توزيع البقايا ذو التوزيع الطبيعي

 أمور هامة يجب أن يتم أخذها في الإعتبار قبل بناء النموذج

 أولا : تحليل البقايا وتجانس التباين

البقايا هي المسافة بين القيم المتنبأ بها والقيم الملاحظة الحقيقية . يجب أن تكون ذات توزيع طبيعي قبل بناء النموذج ويتم تحقيق ذلك عن طريق مخطط التشتت للبقايا ضد القيم المتنبأ بها وكذلك ضد المتغيرات التفسيرية المستقلة. عندما تحسب قيم البقايا لجميع العناصر في الدراسة يتم استبعاد وحذف القيم الخارجة عن نطاق التوزيع الطبيعي بمعنى أنه اذا كان هناك قيم خارج مدى ثلاث انحرافات معيارية أو تزيد عن القيمة -3 أو +3 يتم استبعادها حيث من المتوقع ان تكون نسبة القيم خارج هذا النطاق 1% ويتضح ذلك من نسبة البيانات الواقعة تحت ثلاثة انحرافات معيارية 99% ويبقى منها الواحد في المئة

 إذا كان هناك علاقة خطية بين المتغير المستقل والمتغير التابع وتحقق التوزيع الطبيعي للمتغير التابع مع كل قيمة من المتغير المستقل فأن توزيع البقايا يجب أن يكون طبيعيا كذلك

 ثانيا : العلاقة الخطية المتداخلة

 هي التي تتمثل في الإرتباط بين متغيرين أو أكثر من المتغيرات المستقلة التفسيرية. عندما يكون هناك ارتباط عالي بين أثنين من المتغيرات المستقلة ويتم بناء نموذج الإنحدار فتكون نتيجة معامل الإنحدار غير دقيقة والخطأ المعياري كبير في معاملات بيتا وبالتالي لا يمثل النموذج القيم الصحيحة التي نهدف إليها. يجب أن لا تكون العلاقة بين المتغيرات المستقلة في نموذج الإنحدار أكبر من 0.70

 نستطيع تقدير العلاقة الخطية المتداخلة في النموذج بأستخدام معامل التضخيم للتباين بالطريقة التالية

Variance Inflation Factor ( VIF ) = 1/ (1 – R2) 

 إذا كانت قيم معامل التضخم للتباين اكبر من 4 فهذا يعني وجود علاقة خطية متداخلة ولابد من استبعاد المتغير المستقل الذي لديه تلك القيمة ولكن كلما اقتربت قيمة معامل التضخم للتباين من الصفر كان دليل على عدم وجود العلاقة الخطية المتداخلة

هناك قياس اخر يدعى التحمل ويمكن حسابه بالطريقة التالية

Tolerance = ( 1- R2 )

 إذا كانت قيم التحمل قريبة من الصفر فهذا يعني وجود علاقة خطية متداخلة حيث تشير القيم الإقل من 0.2 إلى هذه العلاقة بينما كلما اقتربت قيمة التحمل من القيمة 1 فهذا دليل على عدم وجود علاقة خطية متداخلة

الارتباط R Tolerance التحملVIF عامل التضخيم 
0.250.941.07
0.500.751.33
0.700.511.96
0.900.195.26
0.950.1010.26

  ثالثا : تحليل البقايا للمتغيرات التفسيرية المتعددة عن طريق المشاهدات المتطرفة ( الليفريج ) والتناقض ومسافة كوك

 Leverage, discrepancy and cook’s distance                          

 الليفريج ( قوة الرافعة ) هو المقياس الذي يستخدام لمعرفة قيم المشاهدات التي تؤثر على ميل خط الإنحدار حيث يتم حسابه عن طريق استخدام قيم البيانات التفسيرية التي تقيس نقاط القيم المتطرفة في تلك البيانات ونهدف من تحليلها الحصول على القيم الشاذة والبعيدة عن المتوسط الحسابي لكل متغير تفسيري ولكنه لا يوضح اتجاه النقطة للقيمة المتطرفة على خط الإنحدار أو المسافة عن بقية النقاط لقيم البيانات. تعتبر القيمة المقبولة للفيريج من 0.2 بينما القيمة التي أعلى من 0.5 لابد من التأكد منها. بالنسبة لطريقة حساب القيمة القاطعة لليفريج أي ما بعدها يكون قيمة متطرفة شاذة ولابد من فحصها والتأكد منها

2 ( K + 1 ) / N

تعني عدد المتغيرات التفسيرية K 

تعني حجم العينة N 

 الدسكريبانسي أو التناقض يقيس نقاط القيم المتطرفة في المتغيرات التفسيرية ومن خلاله يوضح اتجاه النقطة للقيمة المتطرفة على خط الإنحدار أو المسافة عن بقية النقاط لقيم البيانات

 مسافات كوك تستخدم لمعرفة التأثير الخاص بالليفريج والدسكريبانسي حيث تقيس التغير في معامل الإنحدار عند حذف نقطة القيمة المتطرفة وبالتالي فأن حساب القيمة القاطعة لمسافة كوك يؤكد على فحص القيمة التي بعدها فكلما كانت المسافة عالية كان الليفريج عالي والعكس صحيح . إذا كانت قيمة مسافة كوك أقل من 1 فتعني أنه لا يوجد قيم شاذة متطرفة والعكس صحيح

4 / ( N – K – 1 ) 

 تعني عدد المتغيرات التفسيرية K 

تعني حجم العينة N 

DfBeta

  هو مقياس مقدار التغير في معامل الإنحدار عند حذف قيمة المشاهدة من تحليل الإنحدار DfBeta

 أيضا يمكن تعريفه بالفرق بين ميل خط الإنحدار عند وجود المشاهدة وعند غيابها أو الفرق بين معامل الإنحدار المحسوب لجميع البيانات في حالة وجود جميع المشاهدات وعند استبعاد إحداها. القيمة القاطعة لهذا المقياس بحث يكون ما بعدها يتطلب الفحص والتأكد

 2 / sqrt (N)

 لو إفترضنا ان القيمة القاطعة للمقياس كانت 0.183 وتم ملاحظة المشاهدة رقم 10 والتي قيمتها بالمقياس 20.32 وهي اعلى بكثير من القيمة القاطعة ويمكن تفسيرها بأن معامل الإنحدار للمتغير التفسيري في حالة وجود المشاهدة رقم 10 سوف يزيد من الخطأ المعياري بمقدار 20 مرة إذا لم تتم عملية الإستبعاد لتلك المشاهدة

 طريقة بناء النموذج

 الإضافة والحذف في النموذج

يمكن استخدام طريقة الإنحدار المتعدد التدريجي التي تنقسم الى قسمين بالإختيار للأمام أو الحذف للخلف ،، حيث تتمثل طريقة الإختيار للأمام في إضافة المتغيرات واحد بواحد حتى يثبت زيادة التباين الذي يحدثه ذلك المتغير في نموذج الإنحدار المتعدد وهكذا مع باقي المتغيرات ، أما فيما يخص طريقة الحذف الراجع التي تتمثل في إدخال جميع المتغيرات المستقلة في النموذج ومن ثم القيام على حذف المتغير الذي لا يساهم بشكل معنوي في التنبؤ بالمتغير التابع حتى ينتهي نموذج الإنحدار بالمتغيرات التفسيرية ذات الدلالة الإحصائية بالتنبأ في المتغير التابع وتكون قيمة مربع الإرتباط عالية وترتفع تدريجيا في كل إضافة أو حذف من الطرق التي ذكرنها

قيمة تربيع الإرتباط : تفسر نسبة التباين في المتغير التابع والمفسر من قبل المتغير المستقل فلو كان لدينا قيمة تربيع الإرتباط 0.54 فهي تعني بأنه 54% من التباين المفسر من قبل المتغير المستقل على المتغير التابع