]> code.communitydata.science - stats_class_2020.git/blob - os_exercises/ch7_exercises_solutions.rmd
typo fix for week number
[stats_class_2020.git] / os_exercises / ch7_exercises_solutions.rmd
1 ---
2 title: "Chapter 7 Textbook exercises"
3 subtitle: "Solutions to even-numbered questions  \nStatistics and statistical programming  \nNorthwestern University  \nMTS
4   525"
5 author: "Aaron Shaw"
6 date: "October 28, 2020"
7 output:
8   html_document:
9     toc: yes
10     toc_depth: 3
11     toc_float:
12       collapsed: false
13       smooth_scroll: true
14     theme: readable
15   pdf_document:
16     toc: no
17     toc_depth: '3'
18     latex_engine: xelatex
19 header-includes:
20   - \newcommand{\lt}{<}
21   - \newcommand{\gt}{>}
22   - \renewcommand{\leq}{≤}
23   - \usepackage{lmodern}
24 ---
25
26 ```{r setup, include=FALSE}
27 knitr::opts_chunk$set(echo = TRUE)
28
29 ```
30
31
32 All exercises taken from the *OpenIntro Statistics* textbook, $4^{th}$ edition, Chapter 7.
33
34 # 7.12 Lead exposure  
35
36 (a) The hypotheses can be written:
37 $$H_0~:~ \mu = 35$$
38 $$H_A~:~ \mu \neq 35$$
39 (b) The conditions we need to evaluate are *independence* of observations and *normality* of the distribution. More about each below:  
40    **Indepdendence:** If the 52 officers represent a random sample, then independence would be satisfied. Unfortunately, we cannot check this and the assumption seems like a bit of a stretch.  
41    **Normality:** There's no plot or summary information about the distribution, so it's hard to check whether this condition holds or not either. That said, with $n~\geq~30$ the distribution would need to be quite skewed for the t-test procedure to be biased or invalid, so this is probably not all that crucial/concerning.  
42    
43 (c) The test statistic, degrees of freedom, and p-value can be calculated from the information provided:
44 $$T~=~ \frac{124.32-35}{\frac{37.74}{\sqrt{52}}}~\approx~17.07 $$
45 $$df~=~ 52 - 1~=~51$$
46 $$p = 2~\times~P(T_{51} \gt 17.07) \lt 0.001$$
47 With the test statistic and the degrees of freedom, we could do that last bit in R:
48 ```{r}
49 pt(17.07, 51, lower.tail=FALSE)
50 ```
51
52 That's quite a small p-value! The hypothesis test suggests that we can reject $H_0$. Given that the observed difference of means ($124.32-35=89.32$) is large relative to the range and standard deviation of the distribution for the officers (and presumably even larger in reference to the distribution of the suburbanites or the pooled distribution of both groups), the data provides compelling evidence that the police officers have a higher lead concentration in their blood than the suburbanites. Further inferences, such as whether or not this difference can be attributed to the effect of the additional exposure experienced by the officers, would require additional data and some way to disentangle the causal effects of traffic enforcement from any other observed or unobserved differences between the officers and the suburbanites.
53
54 # 7.24 Diamonds, Part I  
55
56 We want to test the following hypotheses:
57 $$H_0~:~\mu_{0.99}=\mu_{1}$$
58 $$H_A~:~\mu_{0.99}\neq\mu_{1}$$
59 To do so, we can use a two-sample t-test to compare the two sample means. The conditions we'd like to satisfy are independence and normality. Re: independence, the samples are random and not exhaustive of the populations (presumably less than 10% of all the diamonds of each carat rating on earth), so we should be good to go. Re: normality, visual inspection of the histograms presented in the textbook suggests that what skew may be present in either distribution is not extreme.  
60
61 Given that the conditions are met, here's how you could construct the test statistic $T$:
62
63 $$T~=~\frac{Point~estimate~-~Null}{Standard~error_{difference}}$$  
64
65 Plugging in formulas from the textbook this looks like:
66
67 $$T~=~ \frac{(\overline{x}_1-\overline{x}_2)-(0)}{\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}}$$
68 Now, plug in values from the table provided in the question text:
69
70 $$T~=~ \frac{(44.51-56.81)-(0)}{\sqrt{\frac{13.32^2}{23}+\frac{16.13^2}{23}}}$$
71 Work that out and you should have $T~=~-2.82$. The degrees of freedom are estimated by the smaller of $n_1-1$ or $n_2-1$ (which are equal in this case), so $df~=~22$. Consulting the table of T-statistics from the back of the book, we find:  
72 $$p_{value}=P(T_{22} \gt 2.82) \approx 0.01$$
73 Or, you might calculate that in R:
74 ```{r}
75 pt(-2.82, 22) ## lower.tail == TRUE since t* is negative
76 ```
77
78 Assuming we're okay with a false positive rate of $p\leq0.05$, this provides support for the alternative hypothesis and we can reject the null of no difference between the average standardized prices of 0.99 and 1 carat diamonds.
79
80 # 7.26 Diamonds, Part II  
81
82 To construct the confidence interval for the difference of means, I need to calculate the following:  
83
84 $$(\overline{x_1}-\overline{x_2})~\pm~t^*_{df}\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}$$
85 All of this is available from the table except the critical value $t^*_{df}$. To find that, I can either use the table in the textbook (and find that it is about 2.07) or calculate it directly in R using the `qt()` function. The degrees of freedom are approximated by the smaller value $n-1$ from either sample (in this case, both yield the same number: 22).
86
87 ```{r}
88 t.star <- qt(0.025, df=22, lower.tail=FALSE)
89
90 diff.means <- 56.81-44.51
91 se <- sqrt( ((16.13^2)/23) + ((13.32^2)/23) )
92
93 diff.means - (t.star*se) ## lower
94 diff.means + (t.star*se) ## upper
95 ```
96
97 In words, I am 95% confident that the average difference between the standardized prices of 1 carat diamond and a 0.99 carat diamond falls between \$3.27 and \$21.33 (the 1 carat diamond costs more).  

Community Data Science Collective || Want to submit a patch?