قیمت 30,000 تومان 15,000 تومان

امتیاز 0 از 0 رأی
بدون امتیاز 0 رای
30,000 تومان 15,000 تومان
ویژگی های دوره
place
نوع دوره: غیر حضوری
local_library
سطح دوره: توضیح مختصر کدها و نحوه اجرا
language
زبان: متلب
access_time
سورس کد و نحوه اجرا
playlist_add_check
ناشر : بیگ لرن
storage
مگابایت
supervisor_account
روش پشتیبانی: ارسال تیکت
card_membership
ساده و قابل فهم

آزمون های آماری

در علم آمار آزمون فرض روشی برای بررسی ادعاها یا فرض ها درباره پارامترهای توزیع در جوامع می باشد. به عبارت دیگر در آزمون یک فرضیه در ابتدا فرض می کنیم که ادعای ما صحیح باشد، سپس چنین ادعایی را با استفاده از داده های نمونه مورد آزمایش قرار می دهیم. آزمون های فرض شامل دو نوع فرضیه می باشند،فرضیه رد شدنی(غیرقابل قبول) که با H0 نشان داده می شود و فرضیه های قابل قبول که با H1 نشان داده می شود. فرضیه رد شدنی ادعای اولیه ما بوده و اغلب با استفاده از تحقیق قبلی یا دانش خودمان به حل آن می پردازیم و فرضیه قابل قبول، فرضیه ای است که در آن ادعا دارید که صحیح باشد، چنین فرضیه ای بر پایه تجزیه و تحلیل استوار می باشد. آزمون فرض های میانگین یکی از پر کاربردترین روش های آمار استنباطی در شاخه های مختلف علوم است از آنجایی که میانگین یکی از پارامترهای مهم یک متغیر پیوسته در جامعه ی آماری است قضاوت در مورد وضعیت و نحوه ی رفتار میانگین ها می تواند راهگشای بسیاری از مسائل باشد. روند در تصمیم گیری در هر آزمون به مقدار آماره آن آزمون و p-value محاسبه شده بر می گردد. جهت بررسی سواالت یا فرضیات تحقیق می بایست آزمون آماری مناسب انتخاب گردد. انتخاب آزمون آماری مناسب بستگی به تعداد متغیرهای تحقیق، تعداد گروه های مقایسه شده، مستقل یا وابسته بودن گروه ها، نرمال بودن یا نبودن توزیع داده ها و نوع داده ها )عددی، رتبه ای، اسمی (دارد،درادامه آزمون های آماری متناسب با کاربرد آنها معرفی می شوند.

 

 

آزمون آماری تی تست (T-test):

همانطور که می دانیم هدف ما از انجام ازمون های اماری این است که از روی نمونه بتوانیم نتیجه گیری خوبی در مورد پارامترهای جامعه داشته باشیم.

در کل دو نوع ازمون اماری  داریم :

* آزمون پارامتریک:

آزمون هاي پارامتريک، آزمون هاي هستند که توان آماري بالا و قدرت پرداختن به داده  هاي جمع آوري شده در طرح  هاي پيچيده را دارند. در این آزمون ها داده ها توزيع نرمال دارند. (مانند آزمون تی).

* آزمون هاي غيرپارامتري:

آزمون هائی مي باشند که داده ها توزیع غیر نرمال داشته و در مقايسه با آزمون های پارامتري از توان تشخیصی کمتري برخوردارند.  (مانند آزمون من – مک نمار-علامت-…) نکته3: اگر جامعه نرمال باشد از آزمون های پارامتریک و چنانچه غیر نرمال باشد از آزمون های غیر پارامتری استفاده می نمائیم.

نکته 4: اگر نمونه بزرگ باشد، طبق قضیه حد مرکزی جتی اگر جامعه نرمال نباشد می توان از آزمون های پارامتریک استفاده نمود.

فرضیات اولیه انجام این ازمون(T-test) :

اين آزمون براي ارزيابي ميزان همقوارگي يا يكسان بودن و نبودن ميانگين نمونه اي با ميانگين جامعه در حالتي به كار مي رود كه انحراف معيار جامعه مجهول باشد. چون توزيع t  در مورد نمونه هاي كوچك (کمتر از 30) با استفاده از درجات آزادي تعديل مي‌شود، مي‌توان از اين آزمون براي نمونه هاي بسيار كوچك استفاده نمود. همچنين اين آزمون مواقعي كه خطاي استاندارد جامعه نامعلوم و خطاي استاندارد نمونه معلوم باشد، كاربرد دارد.   لذا :

  • برای انجام ازمون T اولین مرحله بررسی نرمال بودن داده ها است .
  • متغییر ها دارای مقادیر عددی باشند.
  • واریانس جامعه نامعلوم ولی قابل براورد باشد.

برای بررسی شرط بودن که در قسمت تحلیل اماری داده ها نشان دادیم که تقریبا توزیع داده ها نرمال است.و هم چنین مقادیر عددی متغیر ها به صورت عددی هستند لذا شرایط استفاده از توزیع t  برقرار است.

در انجام هر آزمون آماري ممكن است دو نوع خطا صورت گيرد:

– خطاي نوع اول ( الفا  )= احتمال رد فرض صفر است وقتي فرض صفر درست باشد كه همان سطح معني داري آزمون است.

2- خطاي نوع دوم (  بتا  )= احتمال رد فرض يك است وقتي فرض يك درست باشد.

سطح معني داري: ميزان خطايي است كه ممكن است در رد كردن فرضيه صفر مرتكب شويم. به عبارتي احتمال رد كردن فرض صفر وقتي فرض صفر درست باشد و آن را با نشان مي‌دهيم.

تعيين فرضيه ها :

در تعيين فرضيه‌هاي صفر و يك، حالات مختلفي پيش مي‌آيد كه منجر به آزمون هاي  يكطرفه يا دو طرفه مي‌شود. در آزمون هاي يكطرفه برعكس فرض     كه با مساوي همراه است، فرض      با عبارت « كوچكتر» يا «بزرگتر» همراه است.که برای این سوال هم چون عبارت بزرگتر به کار برده شده است پس ازمون یک طرفه راست است.

استراتژي رد فرض صفر:

هنگامي مي‌توان فرض صفر را رد كرد كه داده هاي مورد بررسي با شرايطي كه فرضيه صفر واقعا صحيح است، مطابقت نداشته باشد. اين كار با قرار گرفتن مقدار شاخص آماري آزمون در ناحيه رد، مورد تاييد قرار مي‌گيرد و ناحيه رد نيز بر اساس توزيع احتمال آن و با توجه به سطح معني داري آزمون تعيين مي‌شود.

مقدار p-value   :

P-Value كه آن را احتمال معني داري براي يك آزمون نيز مي‌گويند، كوچكترين مقداري است كه مي توان براي آلفا در نظر گرفت تا فرض صفر رد شود.

از طرفی آلفا سطح خطایی است که محقق برای رد فرض صفر در ابتدای آزمون در نظر می‌گیرد ولیP-Value  مقدار خطای محاسبه شده در رد فرض صفر است. مزیت محاسبه P-Value این است که اخذ تصمیم در مورد رد یا پذیرش فرض صفر را به محقق واگذار می‌کند. هر چند از قبل مقدار آن را معلوم کرده است ولی می‌تواند در مورد مقدار آن تجدید نظر کند.

فاصله اطمينان (Confidence Interval) :

در هر آزمون اين فاصله اطمينان (Confidence Interval) حدودي است که به احتمال زياد واقعيت در آن وجود دارد. هر چقدر تعداد نمونه هايي که به دست مي‌آوريم کمتر باشد اين بازه وسيعتر بوده و به همان ميزان نيز احتمال رسيدن به واقعيت کمتر است. در واقع وقتي حجم نمونه به ميزان زيادي بالا مي رود ما با اطمينان بيشتري قادر خواهيم بود بيان کنيم که عددي که به دست آورده ايم به واقعيت نزديک است. از سوي ديگر به منظور دست يافتن به فاصله اطمينان در مرحله اول بايد مشخص کنيم که منظور ما به عنوان محقق از فاصله اطمينان چيست. يعني در واقع چه حدي از فاصله اطمينان براي ما قابل قبول است. براي اين منظور فاصلهCI در نظر گرفته شده در اکثر مطالعات برابر با 95% مي باشد.که در این سوال هم همین مقدار است. که به اين معني است که در صورتي که مطالعه مورد نظر 100 بار تکرار شود در 95 بار آن همين محدوده به دست خواهد آمد. هر چه عدد مربوط به CI از 100 فاصله مي گيرد ميزان دقت آن کاهش مي يابد. به اين معني که احتمال اينکه شاخصي که با 99% CI بيان شده به واقعيت نزديک باشد بيشتر از شاخصي است که با 95% CI بيان مي شود.

تست آماری ناپارامتری McNemar :

اين آزمون از آزمونهاي ناپارامتري است كه براي ارزيابي همانندي دو نمونه وابسته بر حسب  متغير دو جوابي استفاده مي‌شود. متغيرها مي‌توانند داراي مقياس هاي اسمي و يا رتبه اي باشند. آزمون مک نمار معادل ناپارامتری آزمون t دو نمونه ای وابسته است، در شرایطی که نوع متغیر مورد بررسی اسمی باشد. هنگامی که موقعیت استفاده از آزمون t دو نمونه ای وابسته فراهم نباشد.از ازمون مک نمار استفاده میشود.

به طور خلاصه شرایط استفاده از آزمون مک نمار عبارتند از:

۱- نمونه ها تصادفی باشند.

2-نمونه ها توزیع نرمال نداشته باشند.

۳- شرایط استفاده از آزمون t  دو نمونه ای وابسته فراهم نباشد.

در این آزمون معناداری آماری با ارزیابی احتمال کای دو طبق رابطه مشخصی و با استفاده از جدول توزیع کای دو تعیین می گردد. معنی داری آماری نشان می دهد که فراوانی یا احتمال های مشاهده شده به صورت همگنی نیستند و تفاوت معنی داری بین آن ها وجود دارد. چنانچه مقدار آماره از مقدار حاصل از جدول توزیع کای دو بزرگتر باشد فرضیه صفر پذیرفته نمی شود. در این ازمون ما فرضیه مربوط به این ازمون را مشابه با قسمت قبل براساس Accuracy ها در نظر گرفته ایم. برای انجام آزمون آماری ما دقت طبقه بند ها را با استفاده از 10-fold-crossvalidation محاسبه کردیم.و با  هر طبقه بند لیبل های مربوط به داده  ها را مشخص کردیم..و ما میخواهیم بدانیم که بین دقت این طبقه بندها تفاوت معنی داری در سطح5%احساس میشود یا خیر.

آزمون آماری ناپارامتری علامت (Sign test) :

آزمون علامت از انواع آزمونهای آماری غیرپارامتری است و هنگامی به کار برده می‌شود که نمونه‌های مورد نظر باشد. زیرا در این آزمون یافته‌ها به صورت جفت جفت بررسی می‌شوند و اندازه مقادیر در آن بی‌اثر است و فقط علامت مثبت و منفی و یا در واقع جهت پاسخ‌ها و یا بیشتر و کمتر بودن پاسخهای جفت‌ های گروه مورد تحقیق (نمونه آماری) در نظر گرفته می‌شود. شکل توزیع می‌تواند نرمال و یا غیر نرمال باشد و یا از یک جامعه و یا دو جامعه باشند (مستقل و یا وابسته). توزیع باید پیوسته باشد. این آزمون فقط تفاوتهای زوجها را مورد بررسی قرار می‌دهد و در صورت مساوی بودن نظرات هر زوج (مشابه بودن) آنها را از آزمون حذف می‌کند. چون مقادیر در این آزمون نقشی ندارند، شدت و ضعف و اندازه بیشتر یا کمتر بودن نظرات پاسخگویان (جفت‌ها) در این آزمون بی اثر است و در واقع نقص این آزمون حساب می‌شود. مانند دیگر آزمون های ناپارامتری در مورد آزمون علامت نیز هیچ محدودیتی راجع به نوع توزیع متغیر مورد نظر وجود ندارد. اما مقادیر متغیر مورد نظر باید پیوستگی داشته و مقیاس آن از نوع ترتیبی باشد. بعبارت دیگر اجرای این آزمون برای متغیرهایی که دارای مقوله های محدودی هستند امکان پذیر نیست. برای انجام آزمون آماری ما دقت طبقه بند ها را با استفاده از 10-fold-crossvalidation محاسبه کردیم(با استفاده از خروجی  متلب).وبعد هر طبقه بند شامل یک ماتریس 100 مولفه ایی خواهد بود که مقادیر مربوط به accuracy ان در این100 اجرا ذخیره شده است.(مثل اینکه 100 بار نمونه گیری کرده باشیم)و ما با توجه به این مقادیر میخواهیم بدانیم که بین دقت انها در سطح%5 اختلاف معنی داری وجود دارد یا نه.

هدف از این پروژه

هدف از انجام این پروژه انجام آزمون آماری برای ارزیابی دقیق  دقت طبقه بندها روی یک دیتاست خاص است :

شرح مسئله: در کاربرگ Train فایل اکسل Problem1Data.xlsx تعداد 89973 رکورد در یک فضای 10 مشخصه بعد  گنجانده شده است. در واقع، 9 مشخصه اول مربوط به متغیرهای ورودی هستند و آخرین مشخصه  Class   متغیر خروجی است. این داده ها مربوط به مشخصات و سوابق خرید مجموعهای از مشتریان یک فروشگاه زنجیرهای است. مدیریت فروشگاه اخیراً در یک کمپین تبلیغاتی برای خرید، یک سری آگهی پیامکی برای خرید با تخفیف خاص به مشتریان ارسال کرد که در پاسخ تنها تعدادی از مشتریان از فروشگاههای این شرکت خرید کردند. در واقع مدیریت فروشگاه علاقهمند است بداند چه کسانی به کمپینهای با تخفیف خاص پاسخ میدهند تا صرفاً برای آنها آگهی تبلیغاتی پیامکی ارسال کند و از این راه در هزینه های تبلیغات صرفه جویی کند. بر همین اساس در ستون نظیر متغیر خروجی یعنی ستون Class نظیر افرادی که به کمپین پاسخ مثبت دادهاند، عدد 1 و به سایر افراد عدد 0 تخصیص یافته است که نشانگر کلاس آنهاست. در این پروژه تمامی الگوریتمهای طبقه بند مورد استفاده را دو به دو بر اساس آزمون های آماری زیر مقایسه می کند. در واقع، برای هر تست، یک ماتریس مقایسه  مشابه ماتریس زیر  تولید میشود که سطر و ستون آن الگوریتمهای مذکور است.در این پروژه آزمون های آماری زیر روی دیتاست مربوطه برای طبقه بندها موجود در جدول انجام میشود :

در هر کدام از سلولهای ماتریس فوق، صرفاً  قبول یا رد در سطح معنی داری α=0.05 براساس کدها بدست میاد. بعلاوه، میزان p-value را در همان سلول گزارش می شود.

فرضیه های مساله به صورت زیر تعریف میشوند :

فرضیه صفر: آیا دقت (accuracy) طبقه بند سطر i با طبقه بند ستون j یکسان است؟

فرضیه مخالف: آیا دقت (accuracy) طبقه بند سطر i از طبقه بند ستون j بیشتر است؟

تمامی کدهای پروژه با زبان متلب کدنویسی شده است و دارای داکیومنت کامل هر بخش به صورت مجزا است .و نحوه اجرای پروژه هر بخش به صورت کامل توضیح داده شده است.

[/vc_column_text][/vc_column][/vc_row]

قابلیت های پروژه

پیش پردازش داده ها با متلب و نرم افزار weka با داکیومنت کامل فایل های ضمیمه

خصوصی

تحلیل های مختلف آماری روی دیتاست برای شناخت بیشتر داده فایل های ضمیمه

خصوصی

رسم نمودار ROC برای عمکلرد هر طبقه بند فایل های ضمیمه

خصوصی

ارزیابی طبقه بندهای مختلف (بیز - درخت تصمیم - بردار پشتیبان - و....) فایل های ضمیمه

خصوصی

آزمون آماری پارامتری t برای ارزیابی دقیق طبقه بندها فایل های ضمیمه

خصوصی

فواصل اطمینان در سطح معنی داری 0.05 برای طبقه بندها فایل های ضمیمه

خصوصی

تعیین فاصله اطمینان برای اختلاف دقت دو طبقه بند فایل های ضمیمه

خصوصی

آزمون آماری ناپارامتری McNemar برای ارزیابی دقیق طبقه بندها فایل های ضمیمه

خصوصی

آزمون ناپارامتری علامت (Sign test) برای ارزیابی طبقه بندها فایل های ضمیمه

خصوصی

داکیومنت فارسی برای هر بخش پروژه فایل های ضمیمه

خصوصی

سورس کامل پروژه فایل های ضمیمه

خصوصی

moreدوره های مرتبط

انتخاب واحد هوشمند و پیش بینی نمرات

طبقه بندی  : مهم ترین مساله دنیا که بشر با ان سرو کار دارد. نتیجه گیری های مهمی که از…
30,000 تومان 15,000 تومان

پروژه پردازش تصویر در #C

پردازش تصویر: بیش از ۹۰ درصد اطلاعات پیرامون ما به وسیله ی مشاهده صورت می پذیرد. با پیشرفت فناوری امکان…
20,000 تومان 15,000 تومان

سیستم چند عامله برای خرید و فروش سهام با کتابخانه Jade

 JADE چیست ؟ (JADE -Java Agent Development Framework)  یک قالب توسعه ­ی نرم ­افزاری است که هدف از آن توسعه­…
30,000 تومان 20,000 تومان

سیستم های چند عاملی با کتابخانه Jade

 JADE چیست ؟ (JADE -Java Agent Development Framework)  یک قالب توسعه ­ی نرم ­افزاری است که هدف از آن توسعه­…
30,000 تومان 15,000 تومان

chat_bubble_outlineنظرات

قوانین ثبت دیدگاه

  • دیدگاه های فینگلیش تایید نخواهند شد.
  • دیدگاه های نامرتبط به مطلب تایید نخواهد شد.
  • از درج دیدگاه های تکراری پرهیز نمایید.
  • امتیاز دادن به دوره فقط مخصوص دانشجویان دوره می باشد.

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *