MicroAd Developers Blog

マイクロアドのエンジニアブログです。インフラ、開発、分析について発信していきます。

PySpark

Parquet形式への変換処理におけるストレージI/O削減

はじめに マイクロアドでサーバサイドエンジニアをしているタカギです。 この記事は、JSON形式の生ログをParquet形式へ変換する際に発生する膨大なI/Oを削減した話になります。 背景 マイクロアドではデータ基盤移行プロジェクトを進めてきました。 様々な検…

データ基盤移行計画とPySpark(Spark Connect)の検証

マイクロアドでサーバサイドエンジニアをしているタカギです。 今回はデータ基盤移行とPySparkについての話になります。 目次 目次 データ基盤移行の概要 データ基盤移行後のバッチ処理 Spark Connectを導入する Spark Connectの問題点 まとめ 補足 データ基…