]> code.communitydata.science - cdsc_reddit.git/blobdiff - dumps/pull_pushshift_comments.sh
add note to try other tf normalization strategies.
[cdsc_reddit.git] / dumps / pull_pushshift_comments.sh
index 3f6d2c91b151712fcbca93ff67f9a03524b78774..40d82d817356cdb61ee0d7be3304daa1d158bcb6 100755 (executable)
@@ -8,7 +8,5 @@ wget -r --no-parent -A 'RC_201*.bz2' -U $user_agent -P $output_dir -nd -nc $base
 wget -r --no-parent -A 'RC_201*.xz' -U $user_agent -P $output_dir -nd -nc $base_url
 wget -r --no-parent -A 'RC_201*.zst' -U $user_agent -P $output_dir -nd -nc $base_url
 
-# starting in 2020 we use daily dumps not monthly dumps
-wget -r --no-parent -A 'RC_202*.gz' -U $user_agent -P $output_dir -nd -nc $base_url/daily/
 
 ./check_comments_shas.py

Community Data Science Collective || Want to submit a patch?