تحلیل ممیزی (تشخیصی) در SPSS

تحلیل ممیزی (تشخیصی) در SPSS

تحلیل ممیزی (تشخیصی) روشی است برای رده بندی مجموعه ای از مشاهدات و همچنین اختصاص مشاهدات جدید به رده های از پیش تعیین شده با استفاده از تابعی تحت عنوان تابع ممیزی. از این روش برای تعیین متغیرهایی که بین دو یا چند گروه تمایز ایجاد می کنند استفاده می شود. به عبارت دیگر تحلیل ممیزی درصدد است تا ترکیب های خطی بین متغیرهای مستقل را که قادرند به بهترین نحو گروه های مشاهدات (Cases) را از هم جدا کنند، شناسایی کند. نظریه آغازین مربوط به تحلیل ممیزی به سال 1930 و آثار آماردان انگلیسی کارل پیرسون در زمینه فواصل گروه ها و یا ضرایب تشابه نژادی برمی گردد. اما به طور خاص، این روش اولین با توسط فیشر در سال 1936 ابداع شد و بر پایه روش شناسی مورد استفاده در رگرسیون خطی چند متغیره جهت حل معادلات خطی توسعه یافت. از این رو می توان گفت که تحلیل ممیزی شبیه رگرسیون خطی چندمتغیره است، با این تفاوت که در رگرسیون خطی، متغیر وابسته در سطح فاصله ای یا نسبی است، اما در تحلیل ممیزی مقیاس متغیر وابسته اسمی دو یا چند وجهی است. از لحاظ محاسباتی نیز تحلیل ممیزی بسیار شبیه آنالیز واریانس یکطرفه می باشد. به عنوان مثال فرض کنید بخواهیم اندازه قد یک نمونه 50 تایی از مردان و یک نمونه 50 تایی از زنان که بصورت تصادفی انتخاب شده اند را اندازه گیری کنیم. مردها بطور متوسط بلندتر از زن ها هستند و این تفاوت می تواند بصورت اختلاف در میانگین قد آنها و از طریق جداول آنالیز واریانس منعکس شود. بنابراین متغیر قد امکان تمایز بین زنان و مردان را میسر می کند. پس اگر شخصی بلند قد است، احتمالاً باید مرد و اگر شخصی کوتاه قد است احتمالاً باید زن باشد. این نحوه دسته بندی بوسیله تابع ممیزی که بر اساس یکسری ضوابط طرح ریزی می گردد، انجام می پذیرد. این تابع از طریق یک نمونه اولیه که به آن نمونه آموزشی می گویند، ساخته می شود. پس از آن تابع قادر است بر اساس آنچه آموزش دیده مشاهدات جدید را به بهینه ترین شکل ممکن به طبقه حقیقی خود اختصاص دهد.

تحلیل ممیزی در SPSS

-Analyze>

      Classify>

                        Discriminant 

فرضیات مورد نیاز:

-         متغیر وابسته یک متغیر اسمی دووجهی (چندوجهی) باشد.

-         متغیرهای مستقل در سطح سنجش فاصله ای باشند.

-         تمام موارد (Cases) از هم مستقل باشند.

-         هر مورد (Case) تنها به یک گروه اختصاص داشته باشد.

-         برای هر گروه حداقل دو مورد وجود داشته باشد.

-         انحراف استاندارد هیچ یک از متغیرهای مستقل در گروه هایی که تشکیل می شوند، صفر نباشد.

-         باقیمانده ها بصورت تصادفی توزیع شده باشند.

-         واریانس متغیرهای مستقل درون گروه هایی که بر اساس متغیر وابسته تشکیل می شوند، برابر باشد.

-         همبستگی میان متغیرهای مستقل در گروه های مختلف همگن باشد.

-         بین متغیرهای مستقل چندهمخطی کامل وجود نداشته باشد.

تحلیل پنجره

Grouping Variable: در این قسمت متغیر وابسته ی کیفی وارد می شود.

Independents: متغیرهای مستقل در این کادر وارد می شوند.

Enter independents together: تمام متغیرهای مستقل را همزمان وارد مدل می کند.

Use stepwise method: از روش Stepwise برای کنترل ورود و خروج متغیرها استفاده می کند.

Statistics

Descriptive: امکان نمایش میانگین گروه ها و میانگین کل به همراه انحراف معیار برای متغیرهای مستقل از طریق گزینه (Means)، جدول آنالیز واریانس یکطرفه برای آزمون برابری میانگین گروه ها از طریق گزینه (Univariate ANOVAs) و آزمون برابری ماتریس های کوواریانس از طریق گزینه (Box's M) را فراهم می آورد.

Function Coefficients: ضرایب طبقه بندی تابع ممیزفیشر را از گزینه (Fisher's) و ضرایب غیر استاندارد تابع ممیز را از گزینه (Unstandardized) برای تعیین سهم نسبی هر متغیر مستقل در کل تابع ممیزی بدست می دهد.

Matrices:

-    Within-groups correlation: ماتریس همبستگی درون گروهی آمیخته که از ماتریس های کوواریانس جداگانه هر گروه بدست می آید را نمایش می دهد.

-    Within-groups covariance: ماتریس کوواریانس درون گروهی آمیخته که از ماتریس های کوواریانس جداگانه هر گروه بدست می آید را نمایش می دهد.

-         Separate-groups covariance: ماتریس های کوواریانس هر مقوله از متغیر وابسته را بصورت جداگانه نمایش می دهد.

-    Total covariance: ماتریس کوواریانس بین متغیرهای مستقل با فرض اینکه تمام موارد از یک نمونه هستند را ارائه می دهد.

Method

این پنجره بواسطه انتخاب Use stepwise method فعال می گردد.

Method: روش های مختلف برای ورود و خروج متغیرهای مستقل جدید را ارائه می دهد.

-         Wilks'lambda: در هر مرحله متغیری که دارای کمترین مقدار آماره لاندای ویلکز باشد را وارد مدل می کند.

-    Unexplained variance: در هر مرحله متغیری که  کمترین مجموع تغییرات توضیح داده نشده بین گروهی را دارد، وارد مدل می کند.

-    Mahalanobis distance: در هر مرحله متغیری که فاصله ماهالانوبیس بین دو گروه نزدیکتر را به حداکثر برساند، وارد مدل می کند.

-    Smallest F ratio: متغیرها را بر اساس ماکزیمم سازی نسبت F که از فواصل ماهالانوبیس بین گروه ها بدست می آید، انتخاب می کند.

-         Rao's V: در هر مرحله متغیری که بیشترین افزایش را در مقدار آماره Rao's V دارد، وارد مدل می کند.

Display:

-         Summary of steps: بعد از هر مرحله مقادیر آماره های فوق را نمایش می دهد.

-         F for pairwise distances: ماتریسی از مقادیر F ratio برای هر جفت از گروه ها ارائه می دهد.

Criteria:

-    Use F value: یک متغیر جدید را وارد مدل می کند اگر مقدار آماره F آن بزرگتر از مقدار Entry باشد و از مدل حذف می کند اگر مقدار آماره F کمتر از Removal باشد.

-         Use probability of F: یک متغیر جدید را وارد مدل می کند اگر سطح معنی داری آماره F آن کمتر از مقدار Entry باشد و از مدل حذف می کند اگر سطح معنی داری آماره F بیشتر از Removal باشد.

Classify

Prior Probabilities: از این مقادیر در طبقه بندی استفاده می شود. مقدار آن را می توان یا برای تمام گروه ها برابر در نظر گرفت یا از روی حجم هر گروه بدست آورد.

Display:

-    Casewise results: برای هر مورد کدهایی برای گروه حقیقی، گروه پیش بینی شده، احتمالات پسین و نمرات ممیزی نمایش می دهد.

-    Summary table: تعداد مواردی که بر اساس آنالیز ممیزی بطور صحیح و غیر صحیح برای هر گروه تعیین می شوند را نمایش می دهد.

-    Leave-one-out-classification: تمامی مشاهدات به جز موردی که قصد پیش بینی آنرا داریم طبقه بندی کرده و تابع تشخیصی را تشکیل می دهد. این قسمت تحت عنوان Cross-validated در جدول Classification Results نمایش داده می شود.

Use Covariance matrix: با انتخاب (Within-groups) ازماتریس کوواریانس درون گروهی آمیخته و با انتخاب (Separate-groups) از ماتریس کوواریانس گروه های جداگانه برای طبقه بندی موردها استفاده می کند.

Plots:

-    Combined-groups: نمودار پراکنش مقادیر دو تابع ممیزی را برای تمام گروه ها در یک نمودار نمایش می دهد. اگر تنها یک تابع ممیزی وجود داشته باشد، هیستوگرام آن را رسم می کند.

-    Separate-groups: نمودار پراکنش مقادیر دو تابع ممیزی را برای تمام گروه ها در نمودارهای جداگانه نمایش می دهد. اگر تنها یک تابع ممیزی وجود داشته باشد، هیستوگرام آن را رسم می کند.

-         Territorial map: نموداری برای مشخص کردن محدوده طبقه بندی مشاهدات درون گروه ها ارائه می دهد.

Save

-         Predicted group membership: شماره گروه های پیش بینی شده را برای هر یک از موردها در Dataset نمایش می دهد.

-         Discriminant scores: ضرایب یا بارهای ممیزی را در Dataset نمایش می دهد.

-         Probabilities of group membership: احتمال عضویت مورد ها در گروه ها را در Dataset نمایش می دهد.

مثالی از تحلیل ممیزی:

می خواهیم تعداد 3000 پرستار بیمارستانی و اداری را بر اساس میزان حقوق ساعتی (hourwage)، رده سنی (agerange) و سابقه کاری (yrsscale) به دو گروه دسته بندی نماییم. (اطلاعات این مثال از مسیر زیر قابل دستیابی است)

IBM\SPSS\Statistics\20\Samples\English\hourlywagedata.sav

 

پنجره مربوط به تحلیل ممیزی را فراخوانی می کنیم.

متغیر position را به عنوان Grouping Variable انتخاب و از قسمت Define Range مقادیر صفر و یک را به ترتیب برای Minimum و Maximum بر می گزینیم. در قسمت Independents متغیرهای Age Range، Years Experience و Hourly Salary را انتخاب و بر روی Statistics کلیک می کنیم.

در پنجره پیش رو گزینه های Means، Univariate ANOVAs، Box’s M، Fisher’s، Unstandardized و Within-groups-correlation را تیک زده و بر روی Continue کلیک می کنیم. سپس در پنجره اصلی Classify  را برمی گزینیم.

در این پنجره گزینه های Summary table و Leave-one-out-classification را تیک می زنیم و بر روی Continue و در نهایت در پنجره اصلی بر روی OK کلیک می کنیم.

تحلیل خروجی:

اولین جدول خروجی نمایشی از تعداد مشاهدات معتبر (Valid) یعنی مشاهداتی که در ساخت مدل مورد استفاده قرار میگیرند و مشاهدات غیرمعتبر (Excluded) یعنی مشاهداتی که به دلیل داشتن مقدار گمشده در ساخت مدل به کار نمی روند، ارائه می دهد. در این مثال 89 مشاهده دارای مقادیر گمشده در میزان حقوق ساعتی می باشند.

جدول بعد یک آمار توصیفی ساده از متغیرهای مستقل درون گروه های متغیر وابسته فراهم می نماید. به عنوان مثال همانطور که مشاهده می شود، میانگین حقوق ساعتی پرستاران بیمارستانی 20/6764 دلار می باشد در حالیکه این مقدار برای پرستاران اداری 18/6859 دلار است. یکی از فرضیات تحلیل ممیزی برابری واریانس گروه ها می باشد. بنابراین انحرافات معیار دو گروه نباید تفاوت فاحشی داشته باشد. با استفاده از این جدول می توان بطور نظری این مورد را بررسی کرد.

جدول (Tests of Equality Group Means) آزمون برابری میانگین دو گروه متغیر وابسته را برای هر یک از متغیرهای مستقل نمایش می دهد. در این مثال وضعیت رده سنی (Age Range) و سابقه کاری (Years Experience) در بین پرستاران بیمارستانی و پرستاران اداری تفاوت معناداری ندارد. اما میانگین حقوق دریافتی در بین این دو گروه متفاوت می باشد (p-value=0.000).

جدول بعد ماتریس همبستگی میان متغیرهای مستقل را قبل از تفکیک آنها به دو گروه (پرستاران بیمارستانی – پرستاران اداری) نمایش می دهد. بر اساس نتایج این جدول شدت ارتباط خطی میان حقوق ساعتی و سابقه ی کاری 0/260 می باشد که ارتباط چندان قوی را نشان نمی دهد.

جدول بعد لگاریتم دترمینان ماتریس کوواریانس درون گروهی هر یک از گروه ها را نمایش می دهد. بنابراین می توان یک دید کلی راجع به برقراری فرض برابری ماتریس های کوواریانس دو گروه بدست آورد. مقدار 3 در ستون Rank نشان دهنده رتبه ماتریس می باشد. با توجه به اینکه در این مثال سه متغیر مستقل داریم، این عدد به نوعی بیانگر عدم وجود رابطه خطی میان این متغیرها می باشد.

جدول (Test Results) آزمون Box’s M را به منظور بررسی فرض برابری ماتریس های کوواریانس ارائه می دهد. در این مثال با توجه به مقدار p-value (Sig.=.000) فرض برابری برقرار نخواهد بود، یعنی ماتریس کوواریانس دو گروه با هم تفاوت دارند. معنادار شدن آزمون Box’s M یا به دلیل عدم برقراری فرض نرمال بودن یا به دلیل بزرگ بودن اندازه نمونه ها می باشد.

جدول بعد تعداد کل توابع ممیزی کانونی که در مرحله اجرای تحلیل ممیزی شناسایی شده است را نمایش می دهد. در این مثال، تحلیل ممیزی توانسته یک تابع ممیزی کانونی را شناسایی کند که این تابع 6/4 درصد از کل واریانس را تبیین می نماید.

جدول (Wilk’s Lambda) به آزمون معناداری مدل می پردازد. با توجه به مقدارp-value این معناداری نشان می دهد که میانگین دو گروه پرستاران بیمارستانی و اداری در حضور هر سه متغیر متفاوت می باشد. منتها این تابع تنها توانسته 6 درصد (0/06=0/94-1) از کل تغییرات میان این دو گروه را تبیین کند.

چون در اجرای تحلیل ممیزی معمولاً متغیرهایی از واحدها و مقیاس های متفاوت داریم، برای تعیین سهم نسبی هر یک از آنها باید به ضرایب استاندارد شده تبدیل شوند. جدول زیر سهم هر یک از متغیرهای مستقل استاندارد شده را در مدل نمایش می دهد. در این مثال متغیر حقوق دریافتی در ساعت (Hourly Salary) با ضریب 1/340 بیشترین تأثیر و متغیر رده سنی (Age Rank) با ضریب 0/08 کمترین اثر را دارند.

جدول بعد میزان همبستگی میان هر متغیر مستقل را با تابع ممیزی نشان می دهد. این مقادیر معادل بارهای عاملی در آنالیز عاملی هستند. هرچه مقدار این اعداد به یک نزدیک تر باشد، نشان از نقش مؤثرتر آن متغیر در تابع ممیزی دارد. در این مثال می بینیم متغیرهای سابقه کاری و رده سنی عملاً در طبقه بندی دو گروه از پرستاران نقش ندارند.

جدول بعد سهم تفکیکی هر متغیرمستقل را در ساخت مدل با ثابت نگه داشتن اثر سایر متغیرها نشان می دهد. با این تفاوت که در این حالت متغیرها هنوز استانداردسازی نشده اند.

جدول Functions at Group Centroids میانگین درون گروهی تابع ممیزی را برحسب گروه های مورد مطالعه نشان می دهد. در این مثال میانگین گروه پرستاران بیمارستانی برابر0/179 و میانگین گروه پرستاران اداری 0/36- می باشد. لذا مشاهدات به هر یک از این مقادیر نزدیکتر باشند، در همان گروه قرار می گیرند.

جدول بعد همانند جدول اول خروجی وضعیت حضور وعدم حضور مشاهدات را در مدل نشان می دهد.

جدول بعد، مقادیر احتمالات پیشین را نمایش می دهد. این مقادیر برآوردی از احتمال تعلق هر مشاهده به هر یک از طبقات متغیر وابسته را نشان می دهد. هنگامیکه از نسبت این طبقات در جامعه اطلاعی نداشته باشیم، مقدار احتمالات پیشین برای تمام طبقات برابر در نظر گرفته می شود. در این مثال چون متغیر وابسته دارای دو طبقه می باشد لذا احتمال پیشین برای هر یک از طبقات برابر 0/5 در نظر گرفته شده است.

ضرایب هر یک از متغیرهای مستقل برای تابع ممیزی به تفکیک گروه های متغیر وابسته در جدول بعد تحت عنوان ضرایب تابع طبقه بندی ارائه شده است. از این توابع برای طبقه بندی مشاهدات درون گروه ها استفاده می شود.

آخرین جدول خروجی که مهمترین جدول آن هم به حساب می آید میزان، موفقیت تابع ممیزی را در دسته بندی صحیح مشاهدات نشان می دهد. در این جدول دو روش Original و Cross-validated برای فرآیند دسته بندی وجود دارد، که هر یک درجای خود کارایی خاص خود را دارد. با این حال روش دوم معمولاً از دقت بیشتری برخوردار است. این روش بر این فرض که نباید مشاهده ای را که قصد داریم پیش بینی کنیم، به عنوان جزئی از فرآیند طبقه بندی به حساب آوریم، استوار است. بنابراین در این روش در هر مرحله هر مشاهده بر اساس تابعی طبقه بندی می شود که از روی سایر مشاهدات بجز خود آن مشاهده ساخته شده است. در این مثال 1194 پرستار بیمارستانی (61/4 درصد) و 563 پرستار اداری (58/3 درصد) براساس مدل پیشنهادی به درستی طبقه بندی شده اند.


3 نظر

سامان معتضدی
سامان معتضدی  ۱۳۹۶/۱۱/۲۸ - ۱۸:۵۴:۵۶

باتشکر از مطالب ارزندتون. فاصله ماهالانوبیس چرا مشخص نشده توی خروجی ها؟

علیرضا افشاری صفوی(arasstat)  ۱۳۹۶/۱۱/۲۹ - ۱۳:۲۱:۲۱

با تشکر از نظر شما دوست عزیز. در اجرای تحلیل از آماره لاندای ویلک به عنوان روش انتخاب متغیرهای پیشگو استفاده شده است.

seyed hassan mehri
seyed hassan mehri  ۱۳۹۷/۰۳/۰۶ - ۱۷:۰۷:۲۱

با سلام ممکن است لطفا فایل پی دی اف تحلیل ممیزی را برایم اراسل فرمایید با سپاس

Azam
Azam  ۱۳۹۷/۰۳/۲۳ - ۰۴:۱۷:۳۱

سلام لطفا روش بدست آوردن تابع تشخیص را به صورت یک رابطه هم ذکر کنید.