]> code.communitydata.science - stats_class_2020.git/blob - os_exercises/ch1_exercises_solutions.rmd
initial commit of w11 tutorial stuff
[stats_class_2020.git] / os_exercises / ch1_exercises_solutions.rmd
1 ---
2 title: "Chapter 1 Textbook exercises"
3 author: "Aaron Shaw"
4 date: "September 21, 2020"
5 output:
6   html_document:
7     theme: readable
8   pdf_document:
9 subtitle: "Solutions to even-numbered questions  \nStatistics and statistical programming
10   \ \nNorthwestern University  \nMTS 525"
11 ---
12
13 ```{r setup, include=FALSE}
14 knitr::opts_chunk$set(echo = TRUE)
15 ```
16
17 All questions taken from the *OpenIntro Statistics* textbook, $4^{th}$ edition, Chapter 1.
18
19
20 ### 1.6  
21
22 (a) Many possible answers here. A basic one rearranges the first sentence of the question in the textbook: "Is there a difference in unethical behaviors by people from different (perceived) social classes?
23 (b) 129 UC Berkeley undergraduate students.
24 (b) From the description in the question text it seems like there are two primary measures:
25 * Unethical behavior (candies taken): a discrete numerical measure.
26 * Perceived social class: a categorical measure.
27
28 ### 1.10  
29
30 (a) Each row represents the data collected about a single participant in the survey.  
31 (b) There were 1,691 participants.
32 (c) See the table below:
33
34 variable | type | sub-type (if applicable)
35 --- | --- | ---
36 sex|categorical
37 age|numerical|discrete (rounded to year)
38 maritalStatus|categorical| 
39 grossIncome|categorical|ordinal
40 smoke|categorical| 
41 amtWeekends|numerical|discrete
42 amtWeekdays|numerical|discrete
43
44 ### 1.16  
45
46 (a) The population of interest is all people. The sample is the 129 UC Berkeley undergraduates who participated in the study.
47 (b) Given that this is an observational study conducted on a convenient sample of UC Berkeley undergraduate students any claims to either causal identification or generalizability seem...implausible.
48
49
50 ### 1.40
51
52 (a) The explanatory (independent, predictor, $x$) variable is percent of a county's population with a bachelor's degree and the response (dependent, outcome, $y$) variable is each county's per capita income (measured in thousands of US$). 
53 (b) There is a positive, linear relationship between the two variables. There are few counties where more than 50% of residents hold bachelor's degrees and few counties with a per capita income greater than $40k.
54 (c) No. Based on the description a causal interpretation is not justified. The data suggest a *positive association* between education and income.
55
56 ### 1.42  
57
58 (a) This is an observational study.
59 (b) The explanatory (independent, predictor, $x$) variables are child's screen time, sex, and age and mother's education, ethnicity, psychological distress, and employment. If you just said child's screen time that would probably be okay since that seems to be the key explanatory variable that is the focus of the study and the other variables are included to support a more accurate estimate of the relationship between screen time and psychological well-being.
60 (c) The response (dependent, outcome, $y$) variable is child's psychological well-being.
61 (d) The best answer to this depends on the target population of the study. The surveys come from three nationally representative samples from the UK, Ireland, and the United States. If the target population of the study is the populations of those three countries, then sure, the study results should generalize. If the target population is "all children on earth" or something like that, well then there's no reason to believe it generalizes since these three countries are in no way representative of the world.
62 (e) The study is observational and lacks any clear strategy for identifying a causal relationship between screen time and psychological well-being. As a result, it does not support any claims to have identified causal effects. 

Community Data Science Collective || Want to submit a patch?