gbif · MattBlissett · Feb 2, 2021
diff --git a/occurrence-cli/pom.xml b/occurrence-cli/pom.xml
@@ -20,6 +20,12 @@
   </distributionManagement>
 
   <properties>
+    <azure-storage-blob.version>12.4.0</azure-storage-blob.version>
+    <azure-storage-queue.version>12.3.0</azure-storage-queue.version>
+    <azure-storage-file-share.version>12.2.0</azure-storage-file-share.version>
+    <azure-storage-file-datalake.version>12.0.0-preview.6</azure-storage-file-datalake.version>
+    <google-cloud.version>16.1.0</google-cloud.version>
+    <google-cloud-storage.verison>1.113.4</google-cloud-storage.verison>
     <!-- have to match gbif-cli version -->
     <guava.version>23.0</guava.version>
     <wagon-ssh.version>2.4</wagon-ssh.version>
@@ -115,6 +121,18 @@
     </repository>
   </repositories>
 
+  <dependencyManagement>
+    <dependencies>
+      <dependency>
+        <groupId>com.google.cloud</groupId>
+        <artifactId>libraries-bom</artifactId>
+        <version>${google-cloud.version}</version>
+        <type>pom</type>
+        <scope>import</scope>
+      </dependency>
+    </dependencies>
+  </dependencyManagement>
+
   <dependencies>
     <dependency>
       <groupId>com.beust</groupId>
@@ -256,6 +274,11 @@
       <artifactId>variables</artifactId>
     </dependency>
 
+    <dependency>
+      <groupId>org.apache.avro</groupId>
+      <artifactId>avro</artifactId>
+    </dependency>
+
     <!-- false positive from maven dep:analyze -->
     <dependency>
       <groupId>org.kohsuke.metainf-services</groupId>
@@ -323,6 +346,37 @@
       <artifactId>junit-jupiter-api</artifactId>
       <scope>test</scope>
     </dependency>
+
+    <!-- Cloud services -->
+    <dependency>
+      <groupId>com.azure</groupId>
+      <artifactId>azure-storage-blob</artifactId>
+      <version>${azure-storage-blob.version}</version>
+    </dependency>
+
+    <dependency>
+      <groupId>com.azure</groupId>
+      <artifactId>azure-storage-queue</artifactId>
+      <version>${azure-storage-queue.version}</version>
+    </dependency>
+
+    <dependency>
+      <groupId>com.azure</groupId>
+      <artifactId>azure-storage-file-share</artifactId>
+      <version>${azure-storage-file-share.version}</version>
+    </dependency>
+
+    <dependency>
+      <groupId>com.azure</groupId>
+      <artifactId>azure-storage-file-datalake</artifactId>
+      <version>${azure-storage-file-datalake.version}</version>
+    </dependency>
+
+    <dependency>
+      <groupId>com.google.cloud</groupId>
+      <artifactId>google-cloud-storage</artifactId>
+      <version>${google-cloud-storage.verison}</version>
+    </dependency>
   </dependencies>
 
   <profiles>

diff --git a/occurrence-cli/src/main/java/org/apache/avro/file/ParallelAvroSplitter.java b/occurrence-cli/src/main/java/org/apache/avro/file/ParallelAvroSplitter.java
@@ -0,0 +1,59 @@
+package org.apache.avro.file;
+
+import org.apache.avro.generic.GenericContainer;
+import org.apache.avro.generic.GenericDatumReader;
+import org.apache.avro.generic.GenericRecord;
+import org.apache.avro.io.DatumReader;
+import org.apache.avro.reflect.ReflectDatumWriter;
+
+import java.io.File;
+import java.io.FileInputStream;
+import java.io.FileOutputStream;
+import java.io.InputStream;
+
+/**
+ * Tool to split an Avro file into N chunks, preserving the schema.
+ *
+ * Usage: ParallelAvroSplitter filename outputFileFormat numberChunks
+ */
+public class ParallelAvroSplitter {
+
+  public static void main(String... args) throws Exception{
+
+    InputStream is;
+    if (args[0].equals("-")) {
+      is = System.in;
+    } else {
+      is = new FileInputStream(args[0]);
+    }
+
+    DatumReader<GenericRecord> datumReader = new GenericDatumReader<>();
+    ReflectDatumWriter<GenericContainer> rdw = new ReflectDatumWriter<>(GenericContainer.class);
+
+    try (DataFileStream<GenericRecord> dfr = new DataFileStream(is, datumReader)) {
+
+      int files = Integer.parseInt(args[2]);
+      RawDataFileWriter<GenericContainer>[] dfws = new RawDataFileWriter[files];
+      for (int i = 0; i < files; i++) {
+        FileOutputStream output = new FileOutputStream(String.format(args[1], i));
+        dfws[i] = new RawDataFileWriter<>(rdw);
+        dfws[i].setCodec(CodecFactory.deflateCodec(6));
+        dfws[i].setFlushOnEveryBlock(false);
+        dfws[i].create(dfr.getSchema(), output);
+      }
+
+      int o = 0;
+      while (dfr.hasNextBlock()) {
+        DataFileStream.DataBlock nextBlockRaw = null;
+        nextBlockRaw = dfr.nextRawBlock(nextBlockRaw);
+        dfws[o%files].writeRawBlock(nextBlockRaw);
+
+        o++;
+      }
+
+      for (RawDataFileWriter<GenericContainer> dfw : dfws) {
+        dfw.close();
+      }
+    }
+  }
+}