QaaD (Query-as-a-Data): Scalable Execution of Massive Number of Small Queries in Spark-Reference-Cited by-同舟云学术

QaaD (Query-as-a-Data): Scalable Execution of Massive Number of Small Queries in Spark

Published:2023-06-13 Issue:2 Volume:1 Page:1-26
ISSN:2836-6573
Container-title:Proceedings of the ACM on Management of Data
language:en
Short-container-title:Proc. ACM Manag. Data

Author:

Park Yeonsu¹^ORCID,Tak Byungchul²^ORCID,Han Wook-Shin¹^ORCID

Affiliation:

1. POSTECH, Pohang, Republic of Korea

2. Kyungpook National University, Daegu, Republic of Korea

Abstract

Spark big data processing platform is heavily used in today's IT services for various critical applications such as machine learning tasks for service recommendations or massive volumes of raw sales data analysis. Spark is designed to deliver high performance by enabling a high degree of parallelism while processing various heavy-weight queries that require homogeneous operations on large data. However, it has been observed that workloads made of small and short-running queries coming from various sources are becoming dominant in practice. Unfortunately, the current Spark architecture is unfit to process workloads made of a large number of small queries optimally due to excessive I/Os with small computations. We present a technique, called QaaD, that addresses this problem fundamentally by applying i) transparent conversion of workloads made of small queries into one with large queries and ii) dynamic partition size adjustment for runtime overhead minimization. For this, we introduce a new abstraction, microRDD, to support our design of query merging, the embedding of queries as part of data, and an opportunistic sharing of common input data among queries. Comprehensive evaluation using real-world data shows that QaaD is able to deliver 10.6x to 36.6x speed-up against standard Spark executions for small query workloads.

Publisher

Association for Computing Machinery (ACM)

Link

https://dl.acm.org/doi/pdf/10.1145/3589279

Reference33 articles.

1. 2022. Amazon Seller Central. https://sellercentral.amazon.com. Accessed: 2022-09--25. 2022. Amazon Seller Central. https://sellercentral.amazon.com. Accessed: 2022-09--25.

2. 2022. Brazilian E-commerce Public Dataset by Olist. https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce. Accessed: 2022-09--25. 2022. Brazilian E-commerce Public Dataset by Olist. https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce. Accessed: 2022-09--25.

3. 2022. Online Auctions Dataset. https://www.kaggle.com/datasets/onlineauctions/online-auctions-dataset. Accessed: 2022-09--25. 2022. Online Auctions Dataset. https://www.kaggle.com/datasets/onlineauctions/online-auctions-dataset. Accessed: 2022-09--25.

4. 2023. Adaptive Query Execution. https://docs.databricks.com/optimizations/aqe.html. Accessed: 2023-01--15. 2023. Adaptive Query Execution. https://docs.databricks.com/optimizations/aqe.html. Accessed: 2023-01--15.

5. RHEEM: Enabling Cross-Platform Data Processing: May the Big Data Be with You! Proc;Agrawal Divy;VLDB Endow.,2018

Cited by 1 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. IoT Query Latency Enhancement by Resource-Aware Task Placement in the Fog;Proceedings of the 39th ACM/SIGAPP Symposium on Applied Computing;2024-04-08