]> code.communitydata.science - stats_class_2020.git/blob - os_exercises/ch8_exercises_solutions.rmd
initial commit of w11 tutorial stuff
[stats_class_2020.git] / os_exercises / ch8_exercises_solutions.rmd
1 ---
2 title: "Chapter 8 Textbook exercises"
3 subtitle: "Solutions to even-numbered questions  \nStatistics and statistical programming  \nNorthwestern University  \nMTS
4   525"
5 author: "Aaron Shaw"
6 date: "November 11, 2020"
7 output:
8   pdf_document:
9     toc: no
10     toc_depth: '3'
11     latex_engine: xelatex
12   html_document:
13     toc: yes
14     toc_depth: 3
15     toc_float:
16       collapsed: false
17       smooth_scroll: true
18     theme: readable
19 header-includes:
20   - \newcommand{\lt}{<}
21   - \newcommand{\gt}{>}
22   - \renewcommand{\leq}{≤}
23   - \usepackage{lmodern}
24 ---
25
26 ```{r setup, include=FALSE}
27 knitr::opts_chunk$set(echo = TRUE)
28
29 ```
30
31
32 All exercises taken from the *OpenIntro Statistics* textbook, $4^{th}$ edition, Chapter 8.
33
34 # 8.6 British married straight couples    
35
36 a) Husband and wife ages are positively, linearly correlated, with a few possible outliers.
37 b) Husband and wife heights also appear to be positively and linearly correlated, but very weakly.
38 c) The age plot shows a much more evident linear trend. The data points also align more tightly.
39 d) No. Correlation is not affected by rescaling. Revisit the formulas for calculating correlation for more depth on this..
40
41
42 # 8.36 The heads of babies   
43
44 a) Substituting into the regression equation:  
45 $\bar{y} = 3.91 + .78 * 28$
46 ```{r}
47 y_bar = 3.91 + .78 * 28
48
49 y_bar
50 ```
51
52 b) Let's write out the hypotheses first:
53 $$H_0:~\beta_{gestational\_age} = 0$$
54 $$H_A:~\beta_{gestational\_age} \neq 0$$
55
56 The test statistic for this can be calculated as a t-score as follows: 
57
58 $$T = \frac{0.78 - 0}{.35} = 2.23$$
59
60 We can look up a p-value for this in a t-table for $df = 23$ or we can figure it out in R. The `pt(q,df)`  function gives the proportion of the T-distribution which is less than `q` with `df` degrees of freedom.
61
62 ```{r}
63 (1 - pt(q = 2.23, df = 23)) * 2 # To get 2-tailed p-value, we multiply this by 2
64
65 pt(q = 2.23, df = 23, lower.tail = FALSE) * 2 # Alternatively, we can get the area of the upper tail and multiply that by 2 (multiplying by 2 works because t-distributions are symmetrical)
66 ```
67
68 The p-value is less than 0.05, so with a traditional $\alpha = 0.05$ we would reject $H_0$ and conclude that there is substantial evidence of an association between gestational age and head circumference for low birth-weight babies (the true slope parameter is unlikely to be zero).
69
70 # 8.40 Cats  
71
72 (a) Here are the hypotheses:  
73 $$H_0:~ \beta_{body\_weight} = 0$$
74 $$H_A:~ \beta_{body\_weight} \neq 0$$
75 (b)  The estimate is large (and positive) with a small standard error, resulting in a large test-statistic and a correspondingly small p-value. This is likely lower than whatever critical value was selected for the significance level, so the data provide compelling evidence in support of the alternative hypothesis that the true slope parameter for body weight is not equal to zero, and is positively associated with heart weight in cats.
76
77 (c)  The confidence interval for the parameter can be calculated like this:
78
79 $$b_{body\_weight} \pm t^* \times SE$$
80 Plugging in values from the model estimates and 1.98 for the value of $t^*$:
81 $$4.034 \pm 1.98 \times 0.250$$
82 $$(3.539, 4.529)$$  
83 In words, this model indicates that for each additional kilogram in a cat's weight we can be 95% confident that the wight of it's heart will increase by 3.539 to 4.529 grams on average.  
84
85 (d) Yes. The alternative hypothesis from parts (a) and (b) corresponds to the 95% CI above zero calculated in part (d).  
86
87 # 8.44  Rating professors  
88
89 a) Here's how to calculate the slope:  
90 $$\bar{y} = b_0 + b_1 \bar{x}$$
91 $$3.9983 = 4.010 + b_1 \times -0.0883$$
92 I'll let R handle the arithmetic:
93 ```{r}
94 b_1 = (3.9983-4.010) / -0.0883
95 b_1
96 ```
97
98 b) The null hypothesis is that $H_0:~\beta_1 = 0$. With a t-score of 4.13 and a p-value of \~0.00 there is strong evidence of a positive relationship between beauty and teaching scores (we would reject the null hypothesis).  
99
100 c)   
101   1. Nearly normal residuals: The distribution of residuals looks a little bit (left) skewed but fairly normal.  
102   2. Homoscedasticity (constant variance) of residuals: The residuals have approximately equal variance across the range of beauty around zero.  
103   3. Independent observations/residuals: The question does not really shed much light on this. Looking at the original paper, it is actually a bit unclear how the instructors were chosen and whether or not they are a random sample. The residuals do not seem to have any relationship with the order of data collection, so that's good at least.   
104   4. Linear relationship between independent/dependent variables: From the scatterplot, the relationship appears to be linear (or at least not obviously non-linear).  
105
106

Community Data Science Collective || Want to submit a patch?