]> code.communitydata.science - ml_measurement_error_public.git/blob - simulations/notes.org
add stuff to get perspective scores from civil comments
[ml_measurement_error_public.git] / simulations / notes.org
1 ** Next simulations to run
2 - Focus on the BKH *multiple imputation* approach --- We don't actually need overimputation when we have some gold standard data.
3 - The idea of this paper is basically to say "Supervised learning fits well into this framework. So use it!"
4 - Important findings will involve: 
5   - How well does this work when the learner is biased? 
6     Probably works great as long as you can account for the bias in imputation + regression
7   - How well does this work when features are unavailable? 
8     - if the 
9   - How well does this work when featues are available? 
10   - How well does this work when measurement error is correlated with the independent and dependent variable?
11   - How well does this work when there's a very large number of missing values?
12
13
14
15 ** How well does supervised ML measurement fit into BHK? 
16 *** Unbiased proxy assumption:  If data is missing but there's a proxy variable that's unbiased we can use m=1 techniques instead of m=2 techniques.   
17
18 M=1 techniques are simpler / more powerful, but maybe m=2 techniques are more robust given we can't assume supervised learners are unbiased. 
19
20 That said, if we have access to the features, then we can use the predictions and the features as our proxy variable.  Since any bias in w will be correlated with the features, including the features in the likelihood will reduce the bias. 
21
22 *** IMMA assumption: distribution of the mismeasurement indicator, m,is the same no matter the value of the missing data.
23
24 This isn't a problem if ground truth is randomly sampled. 
25 It is a problem if ground truth is based on a stratified sample.   
26
27 *** Measurement error distribution assumption: The distribution of the proxy variable (conditional on missing and observed data and its distributional parameters) known up to its parameters. The parameters are either known or a consistent estimator is available.
28  
29 This isn't a problem if we have ground truth because we can use the ground truth to estimate the parameters.  
30
31 If we don't have ground truth, we'll have to guess. 

Community Data Science Collective || Want to submit a patch?