更多资料
希望你觉得这本书很有用,现在你对查询引擎的内部原理有了更好的了解。如果你觉得有什么话题没有充分涉及,或者根本没有涉及,我很希望听到这个消息,这样我就可以考虑在本书未来的修订中增加这些些内容。
你可以在 Leanpub 网站 的公共论坛上发表反馈意见,也可以直接通过 twitter @andygrove_io 给我留言。
开源项目
有许多包含查询引擎的开源项目,学习这些项目是了解该主题的好方法。这里给出了主流开源查询引擎的几个例子。
- Apache Arrow
- Apache Calcite
- Apache Drill
- Apache Hadoop
- Apache Hive
- Apache Impala
- Apache Spark
- Facebook Presto
- NVIDIA RAPIDS Accelerator for Apache Spark
YouTube
我最近才发现 Andy Pavlo 的系列讲座,可以在 YouTube 上看到(链接)。这其中涵盖的内容远不止查询引擎,而是有大量关于查询优化和执行的内容。我强烈建议观看这些视频。
样本数据
前面的章节提到了纽约市出租车和豪华轿车委员会的行程记录数据集。黄色和绿色的出租车行程记录包括记录上车和下车日期 / 时间、上车和下车地点、行程距离、分项票价、费率类型、付款类型以及司机报告的乘客人数。这些数据以 CSV 格式提供。KQuery 项目包含将这些 CSV 文件转换为 Parquet 格式的源代码。
数据可以通过网站上的链接下载或直接从 S3 下载文件。例如,Linux 或 Mac 上的用户可以使用 curl 或 wget 下载 2019 年 1 月黄色出租车的数据,命令如下,并根据文件命名规则创建脚本来下载其他文件。
wget https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2019-01.csv
本书的电子版、MOBI和PDF格式也可从 https://leanpub.com/how-query-engines-work 购买。
Copyright © 2020-2022 Grove Enterprises, LLC。保留所有权利。