]>
 
 
code.communitydata.science - mediawiki_dump_tools.git/log 
 
 
 
 
 
 
 
summary  | 
shortlog  | log | 
commit  | 
commitdiff  | 
tree 
first ⋅ prev ⋅ next
 
Nathan TeBlunthuis  [Wed, 30 Mar 2022 00:52:26 +0000  (17:52 -0700)] 
 
write regex captures to parquet arrays. 
 
Nathan TeBlunthuis  [Thu, 10 Mar 2022 23:07:27 +0000  (15:07 -0800)] 
 
add a minor comment on the source of the redirect regex 
 
Nathan TeBlunthuis  [Thu, 10 Mar 2022 21:31:03 +0000  (13:31 -0800)] 
 
resolve redirects if siteinfo is provided 
 
Nathan TeBlunthuis  [Wed, 9 Mar 2022 04:17:20 +0000  (20:17 -0800)] 
 
bugfix. column name text_chars 
 
Nathan TeBlunthuis  [Wed, 17 Nov 2021 00:53:21 +0000  (16:53 -0800)] 
 
[Bugfix] Call the correct matchmake function. 
 
Nathan TeBlunthuis  [Fri, 12 Nov 2021 03:09:41 +0000  (19:09 -0800)] 
 
rename matchmake functions 
 
Nathan TeBlunthuis  [Tue, 19 Oct 2021 23:55:24 +0000  (16:55 -0700)] 
 
Add some descriptive comments. 
 
Nathan TeBlunthuis  [Mon, 18 Oct 2021 21:14:11 +0000  (14:14 -0700)] 
 
add todos to readme 
 
Nathan TeBlunthuis  [Mon, 18 Oct 2021 20:33:05 +0000  (13:33 -0700)] 
 
fix bugs and unit tests 
 
Nathan TeBlunthuis  [Mon, 18 Oct 2021 17:15:03 +0000  (10:15 -0700)] 
 
bugfix 
 
Nathan TeBlunthuis  [Mon, 18 Oct 2021 04:46:31 +0000  (21:46 -0700)] 
 
parquet path is code-complete 
 
Nathan TeBlunthuis  [Mon, 18 Oct 2021 03:24:33 +0000  (20:24 -0700)] 
 
remove dependency on pandas. 
 
Nathan TeBlunthuis  [Mon, 18 Oct 2021 03:21:22 +0000  (20:21 -0700)] 
 
use dataclasses and pyarrow for types. 
 
Nathan TeBlunthuis  [Sun, 17 Oct 2021 20:22:22 +0000  (13:22 -0700)] 
 
initial work on parquet support 
 
Nathan TeBlunthuis  [Mon, 11 Nov 2019 19:28:48 +0000  (11:28 -0800)] 
 
remove commented code 
 
Nathan TeBlunthuis  [Sat, 9 Nov 2019 21:07:46 +0000  (13:07 -0800)] 
 
refactor regex matching in a tidier object oriented style 
 
Nathan TeBlunthuis  [Sat, 9 Nov 2019 20:19:55 +0000  (12:19 -0800)] 
 
validate tests and add asserts and baselines for regex tests. 
 
sohyeonhwang  [Thu, 7 Nov 2019 20:06:15 +0000  (14:06 -0600)] 
 
added regex scanner v2's dump unit test file regextest.xml.bz2 
 
sohyeonhwang  [Thu, 7 Nov 2019 19:28:17 +0000  (13:28 -0600)] 
 
merging pull containing revert-radius with 2nd version of regex scanner w/ unit tests 
 
groceryheist  [Mon, 7 Oct 2019 22:02:30 +0000  (15:02 -0700)] 
 
add unit tests for configuring revert_radius 
 
groceryheist  [Mon, 7 Oct 2019 20:57:49 +0000  (13:57 -0700)] 
 
make revert radius configurable 
 
groceryheist  [Sun, 6 Oct 2019 01:17:03 +0000  (18:17 -0700)] 
 
Merge branch 'master' into regex_scanner 
 
groceryheist  [Sat, 5 Oct 2019 23:36:07 +0000  (16:36 -0700)] 
 
update baseline outputs 
 
groceryheist  [Sat, 5 Oct 2019 23:13:11 +0000  (16:13 -0700)] 
 
bugfix, remove old legacy persistence flag 
 
sohyeonhwang  [Sat, 5 Oct 2019 20:36:58 +0000  (15:36 -0500)] 
 
changes for regex scanner addition 
 
groceryheist  [Sun, 22 Sep 2019 22:54:17 +0000  (15:54 -0700)] 
 
edont compute persistence by default 
 
groceryheist  [Sun, 22 Sep 2019 22:11:59 +0000  (15:11 -0700)] 
 
elaborate docstring for persistence 
 
groceryheist  [Mon, 3 Sep 2018 18:30:12 +0000  (11:30 -0700)] 
 
improve help for namespace-include 
 
groceryheist  [Mon, 3 Sep 2018 18:21:49 +0000  (11:21 -0700)] 
 
sub assertEquals assertEqual 
 
Nate E TeBlunthuis  [Fri, 24 Aug 2018 01:25:08 +0000  (18:25 -0700)] 
 
add namespace filter parameter 
 
groceryheist  [Fri, 24 Aug 2018 01:52:54 +0000  (18:52 -0700)] 
 
Merge branch 'advanced_persistence' of code.communitydata.cc:mediawiki_dump_tools into advanced_persistence 
 
groceryheist  [Fri, 24 Aug 2018 01:27:09 +0000  (18:27 -0700)] 
 
Add parameter for selecting specific namespaces. 
 
groceryheist  [Fri, 24 Aug 2018 01:27:09 +0000  (18:27 -0700)] 
 
Merge branch 'advanced_persistence' of code.communitydata.cc:mediawiki_dump_tools into advanced_persistence 
 
Nate E TeBlunthuis  [Fri, 24 Aug 2018 01:23:36 +0000  (18:23 -0700)] 
 
Merge branch 'advanced_persistence' of code.communitydata.cc:/mediawiki_dump_tools into advanced_persistence 
 
Nate E TeBlunthuis  [Fri, 24 Aug 2018 01:25:08 +0000  (18:25 -0700)] 
 
add namespace filter parameter 
 
Nate E TeBlunthuis  [Fri, 24 Aug 2018 01:23:36 +0000  (18:23 -0700)] 
 
Merge branch 'advanced_persistence' of code.communitydata.cc:/mediawiki_dump_tools into advanced_persistence 
 
Nate E TeBlunthuis  [Fri, 24 Aug 2018 01:02:56 +0000  (18:02 -0700)] 
 
add namespace filter parameter 
 
Nate E TeBlunthuis  [Fri, 24 Aug 2018 01:02:56 +0000  (18:02 -0700)] 
 
add namespace filter parameter 
 
groceryheist  [Mon, 20 Aug 2018 23:08:16 +0000  (16:08 -0700)] 
 
add support for persistence with segment matching 
 
groceryheist  [Tue, 10 Jul 2018 05:11:17 +0000  (22:11 -0700)] 
 
Prefix page titles with namespace names. 
 
groceryheist  [Thu, 5 Jul 2018 08:16:00 +0000  (01:16  -0700)] 
 
migrate to mwxml. This completes the migration away from python-mediawiki-utilities. Except for preserving legacy persistence behavior, we can safely use the nice updates from the mediawiki-utils project. 
 
groceryheist  [Thu, 5 Jul 2018 02:06:07 +0000  (19:06 -0700)] 
 
migrate to mwpersistence. this fixes many issues. We preserve legacy persistence behavior using the --persistence-legacy. 
 
groceryheist  [Wed, 4 Jul 2018 22:29:48 +0000  (15:29 -0700)] 
 
migrate reverts to python-mwreverts 
 
groceryheist  [Wed, 4 Jul 2018 22:20:52 +0000  (15:20 -0700)] 
 
add note to readme about dependency on compression software 
 
groceryheist  [Wed, 4 Jul 2018 22:08:30 +0000  (15:08 -0700)] 
 
add tests for wikipedia, malformed xml, bzip2, correct bz2 bug in wikiq. 
 
groceryheist  [Wed, 4 Jul 2018 06:43:47 +0000  (23:43 -0700)] 
 
create baseline tests for xml dump processing 
 
Benjamin Mako Hill  [Thu, 17 May 2018 21:37:20 +0000  (14:37 -0700)] 
 
a number of small updates and fixes 
 
- fix regex for filename/filetype matches 
- unload all files not just ones with end with xml in 7z archives 
- fix bug that broke stdout 
- minor cosmetic fixes 
- updated mediawiki-utilities submodule to latest version 
 
groceryheist  [Thu, 7 Dec 2017 23:10:56 +0000  (15:10 -0800)] 
 
support 7z archives with multiple files. add urlencode paraeter 
 
Benjamin Mako Hill  [Tue, 7 Feb 2017 02:25:17 +0000  (18:25 -0800)] 
 
fix code to work with bzip files 
 
Benjamin Mako Hill  [Thu, 23 Jul 2015 19:16:31 +0000  (12:16 -0700)] 
 
added list of compressed dump files to .gitignore 
 
Benjamin Mako Hill  [Thu, 23 Jul 2015 19:12:20 +0000  (12:12 -0700)] 
 
added support to parse namespaces from title 
 
This is necessary for wikis (e.g., Wikia XML dumps) that do not include 
namespace metadata as tags within each <page>. 
 
Benjamin Mako Hill  [Thu, 23 Jul 2015 02:55:08 +0000  (19:55 -0700)] 
 
added README file to document the submodule 
 
Benjamin Mako Hill  [Thu, 23 Jul 2015 02:44:52 +0000  (19:44 -0700)] 
 
created new repository for wikiq with Mediawiki-Utilities as a submodule 
 
Community Data Science Collective  || Want to submit a patch?