یاد خواهید گرفت:
تحلیل رگرسیون روشی برای ارتباط متغیرها با یکدیگر است. متغیرها به سادگی بیت های اطلاعاتی هستند که ما جمع آوری کرده ایم. با استفاده از تحلیل رگرسیون می توانیم الگوهایی را در داده های خود پیدا کنیم. این به ما اجازه می دهد تا بر اساس داده های خود پیش بینی کنیم. رگرسیون آماری تکنیکی است که برای تعیین اینکه چگونه یک متغیر وابسته تحت تأثیر یک یا چند متغیر مستقل قرار می گیرد، استفاده می شود. از نظر ریاضی، رگرسیون آماری به این سوال پاسخ می دهد: اگر مقدار X (متغیر مستقل) تغییر کند، چه تاثیری بر مقدار Y (متغیر وابسته) خواهد داشت؟
به عنوان مثال - ما می خواهیم رابطه بین سن و قیمت خودروهای دست دوم فروخته شده در سال گذشته توسط یک فروشنده خودرو را دریابیم. شاهد رابطه منفی بین این دو متغیر خواهیم بود. با افزایش سن خودرو، قیمت ها کاهش می یابد. در این مثال، سن خودرو و قیمت خودرو دو متغیر هستند. قیمت خودرو به سن خودرو بستگی دارد. چیزی که میخواهیم پیدا کنیم معادلهای است که به بهترین وجه با دادههایی که داریم مطابقت دارد. یک مدل تحلیل رگرسیون بسیار ساده که می توانیم برای مثال خود استفاده کنیم، مدل خطی نامیده می شود که از یک معادله خطی ساده برای برازش داده ها استفاده می کند. معادلات خطی وقتی نمودار می شوند یک خط مستقیم به شما می دهند.
معادله رگرسیون خطی یا به عنوان فرمول شیب شناخته می شود به شکل Y= a + bX است، که در آن Y متغیر وابسته است (این متغیری است که روی محور Y می رود)، X متغیر مستقل است (یعنی بر روی نمودار رسم می شود. محور X)، b شیب خط و a نقطه ی y است (مقدار y وقتی x = 0 است).
شیب یک خط مقداری است که میزان تغییر بین متغیرهای مستقل و وابسته را توصیف می کند. شیب به ما می گوید که چگونه متغیر وابسته ( y ) به ازای هر یک واحد افزایش در متغیر مستقل ( x ) به طور متوسط تغییر می کند. زمانی که متغیر مستقل برابر با صفر باشد، از y -intercept برای توصیف متغیر وابسته استفاده می شود.
b>0 رابطه مثبت بین دو متغیر را نشان می دهد.
همچنین می توانید از هر نرم افزار آماری مانند اکسل برای بدست آوردن معادله رگرسیون خطی، رسم نمودار پراکندگی و رسم خط رگرسیون استفاده کنید.
تحلیل رگرسیون چگونه کار می کند؟
رگرسیون خطی شامل یافتن بهترین خط مستقیم از طریق نقاط است. متغیر وابسته ای را تعریف کنید که فرض می کنید تحت تأثیر یک یا چند متغیر مستقل است. مجموعه داده این متغیرها را جمع آوری کنید.
مثال 1: بیایید داده های زیر را برای فروش خودروی دست دوم در نظر بگیریم.
عصر خودرو (به سال) | قیمت (به دلار) |
4 | 6500 |
4 | 6000 |
5 | 5500 |
5 | 5300 |
7 | 4700 |
7 | 4300 |
8 | 4000 |
9 | 3100 |
10 | 3000 |
11 | 2000 |
12 | 1800 |
با نگاهی به داده ها می توان گفت که قیمت خودرو با افزایش سن خودرو کاهش می یابد.
فرمول خط رگرسیون Y= a + bX است، a و b را با استفاده از فرمول های زیر استخراج کنید
معادله رگرسیون خطی برای این رابطه Y = -557.62125 X + 8356.81293 است.
نقاط داده و خط رگرسیون را در یک نمودار رسم کنید.
محور X: سن، محور Y: قیمت
مثال 2: جان یک لوله کش است. او 25 دلار به عنوان هزینه بازدید و 35 دلار به عنوان هزینه کار ساعتی خود دریافت می کند. یک معادله خطی که میزان کل پولی را که جان برای هر بازدید به دست می آورد را بیان می کند y = 25 + 35x است.
چرا تحلیل رگرسیون؟