gobblin

Apache Gobblin Initialization Action

This initialization action installs version 0.12.0 RC2 of Apache Gobblin on all nodes within Google Cloud Dataproc cluster.

The distribution is hosted in Dataproc-team owned Google Cloud Storage bucket gobblin-dist.

Using this initialization action

⚠️ NOTICE: See best practices of using initialization actions in production.

You can use this initialization action to create a new Dataproc cluster with Gobblin installed by:

Use the gcloud command to create a new cluster with this initialization action.

REGION=<region>
CLUSTER_NAME=<cluster_name>
gcloud dataproc clusters create ${CLUSTER_NAME} \
    --region ${REGION} \
    --initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/gobblin/gobblin.sh

Submit jobs

gcloud dataproc jobs submit hadoop --cluster=<CLUSTER_NAME> \
    --class org.apache.gobblin.runtime.mapreduce.CliMRJobLauncher \
    --properties mapreduce.job.user.classpath.first=true \
    -- \
    -sysconfig /usr/local/lib/gobblin/conf/gobblin-mapreduce.properties \
    -jobconfig gs://<PATH_TO_JOB_CONFIG>

Alternatively, you can submit jobs through Gobblin launcher scripts located in /usr/local/lib/gobblin/bin. By default, Gobblin is only configured for mapreduce mode.

To learn about how to use Gobblin read the documentation for the Getting Started guide.

Important notes

For Gobblin to work with Dataproc Job API, any additional client libraries (for example: Kafka, MySql) would have to be symlinked into /usr/lib/hadoop/lib directory on each node.

Name		Name	Last commit message	Last commit date
parent directory ..
README.md		README.md
gobblin.sh		gobblin.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

gobblin

gobblin

README.md

README.md

gobblin.sh

gobblin.sh

README.md

Apache Gobblin Initialization Action

Using this initialization action

Important notes

Files

gobblin

Directory actions

More options

Directory actions

More options

Latest commit

History

gobblin

Folders and files

parent directory

README.md

README.md

gobblin.sh

gobblin.sh

README.md

Apache Gobblin Initialization Action

Using this initialization action

Important notes