ngrams/Makefile

   1 outputdir=../../data/reddit_ngrams/
   2 inputdir=../../data/reddit_comments_by_subreddit.parquet
   3 authors_tfdir=${outputdir}/comment_authors.parquet
   4 srun=sbatch --wait --verbose run_job.sbatch
   5
   6 all: ${outputdir}/comment_authors_sorted.parquet/_SUCCESS
   7
   8 tf_task_list_1: tf_comments.py
   9         ${srun} bash -c "python3 tf_comments.py gen_task_list --mwe_pass='first' --outputdir=${outputdir} --tf_task_list=$@ --inputdir=${inputdir}"
  10
  11 ${outputdir}/comment_terms.parquet:tf_task_list_1
  12         mkdir -p sbatch_log
  13         sbatch --wait --verbose --array=1-$(shell cat $< | wc -l) run_array.sbatch 0 $<
  14
  15 ${outputdir}/comment_authors.parquet:${outputdir}/comment_terms.parquet
  16         -
  17
  18 ${outputdir}/comment_authors_sorted.parquet:${outputdir}/comment_authors.parquet sort_tf_comments.py
  19         ../start_spark_and_run.sh 3 sort_tf_comments.py --inparquet=$< --outparquet=$@ --colname=author
  20
  21 ${outputdir}/comment_authors_sorted.parquet/_SUCCESS:${outputdir}/comment_authors_sorted.parquet
  22
  23
  24 ${inputdir}:
  25         $(MAKE) -C ../datasets