]> code.communitydata.science - stats_class_2020.git/blobdiff - psets/pset3-worked_solution.html
ch 5 exercise solutions
[stats_class_2020.git] / psets / pset3-worked_solution.html
index 0970f3e2acd4ae783e0a76622318634588dcb236..0d9a58933afb6340c72c70e6f47e8b48798f77bf 100644 (file)
@@ -2181,6 +2181,8 @@ sapply(groups, gen_subgroup_prop)</code></pre>
 <p>Again, many possible things worth mentioning here, so I’ll provide a few that stand out to me.</p>
 <ul>
 <li>The generalizability of analysis focused on one state during one 6 year period is limited.</li>
+<li>Working with a random <span class="math inline">\(1\%\)</span> sample of the full dataset means that our results here could diverge from those we would find in an analysis of the full population of traffic stops in unpredictable ways. That said, even the very small sample is quite big and once you’ve read <em>OpenIntro</em> §5 you’ll have some tools to estimate standard errors and confidence intervals around the various results from this analysis.<br />
+</li>
 <li>The data seem very prone to measurement errors of various kinds. In particular, I suspect the race/ethnicity classifications provided by officers are subject to some biases that are hard to identify and might also shift over time/region. The prevalence of missing values during the first two years of the dataset illustrate one aspect of this and may impact estimates of raw counts and proportions.<br />
 </li>
 <li>While the comparisons across racial/ethnic groups and between the traffic stops/searches and baseline population proportions illustrates a number of suggestive patterns, conclusive interpretation or attribution of those patterns to any specific cause or causes is quite difficult in the absence of additional information or assumptions. For one example, see my comments regarding statistical independence and the possible explanations in SQ2 above.</li>

Community Data Science Collective || Want to submit a patch?