]> code.communitydata.science - covid19.git/commitdiff
add documentation for the output files
authorNathan TeBlunthuis <nathante@uw.edu>
Tue, 31 Mar 2020 23:22:30 +0000 (16:22 -0700)
committerNathan TeBlunthuis <nathante@uw.edu>
Tue, 31 Mar 2020 23:22:30 +0000 (16:22 -0700)
keywords/README.md

index 5bf27bad91d2964b64c775ea7c3ab7d78e35b825..490d7eb7d13b7796337e49ff4217242b9a839a49 100644 (file)
@@ -5,3 +5,10 @@ This code finds trending web searches related to the COVID-19 pandemic using Goo
 We search the Wikidata API for entities in `src/wikidata_search.py` and then we make simple SPARQL queries in `src/wikidata_translations.py` to collect labels and aliases the entities.  The labels come with language metadata.  This seems to provide a decent initial list of relevant terms across multiple languages. 
 
 The output data lives at [covid19.communitydata.science](https://covid19.communitydata.science/datasets/keywords).
 We search the Wikidata API for entities in `src/wikidata_search.py` and then we make simple SPARQL queries in `src/wikidata_translations.py` to collect labels and aliases the entities.  The labels come with language metadata.  This seems to provide a decent initial list of relevant terms across multiple languages. 
 
 The output data lives at [covid19.communitydata.science](https://covid19.communitydata.science/datasets/keywords).
+
+The output files have 4 colums: 
+
+- `itemid` links to the wikidata entity
+- `label` is the translation of the relevant keyword
+- `langcode` is the [iso 639-1](https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) code corresponding the language of the label. 
+- `is_alt` indicates whether the label is an [alias](https://www.wikidata.org/wiki/Help:Aliases).

Community Data Science Collective || Want to submit a patch?