网站首页 第997页
-
使用cookiecutter-django建立一个数据分析应用的全部过程
使用cookiecutter-django来建立一个数据分析应用是一个高效且系统化的过程。cookiecutter-django是一个骨架项目生成器,它允许开发者快速地创建具有合理默认配置的Django项目。在这个全过程中,我们将逐步介绍如...
2024-11-22 wxchong 开源技术 99 ℃ 0 评论 -
HDFS的知识整理
HDFS概述HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统的...
2024-11-22 wxchong 开源技术 44 ℃ 0 评论 -
大数据平台架构及主流技术栈
互联网和移动互联网技术开启了大规模生产、分享和应用数据的大数据时代。面对如此庞大规模的数据,如何存储?如何计算?各大互联网巨头都进行了探索。Google的三篇论文GFS(2003),MapReduce(2004),Bigtable(200...
2024-11-21 wxchong 开源技术 60 ℃ 0 评论 -
Apache Pinot vs. Apache Druid
1.背景常见OLAP引擎包括不仅限于Hive、SparkSQL、Presto、Kylin、Impala、Druid、Pinot、Clickhouse、Greeplum,与OLTP不同,OLAP更强调SQL的执行速度,分区,强调磁盘I/O...
2024-11-21 wxchong 开源技术 75 ℃ 0 评论 -
「大数据」SparkSql连接查询中的谓词下推处理(一)
本文首发于vivo互联网技术微信公众号https://mp.weixin.qq.com/s/YPN85WBNcnhk8xKjTPTa2g作者:李勇目录:1.SparkSql2.连接查询和连接条件3.谓词下推4.内连接查询中的谓词下推规...
2024-11-21 wxchong 开源技术 169 ℃ 0 评论 -
完美避坑!记一次Elasticsearch集群迁移架构实战
前言Elastic自身设计了集群分片的负载平衡机制,当有新数据节点加入集群或者离开集群,集群会自动平衡分片的负载分布。需求背景公司原有大数据平台基于公有云构建,由于种种原因,现在需要迁移到自建机房,Elasticsearch集群承担了大数据...
2024-11-21 wxchong 开源技术 78 ℃ 0 评论 -
大数据Presto(二):Presto安装搭建
#头条创作挑战赛#Presto安装搭建...
2024-11-21 wxchong 开源技术 63 ℃ 0 评论 -
Presto查询优化拾遗
GroupedExecution为了方便大家理解GroupedExecution的原理,我们先来介绍两个概念:分桶和HashJoin。1.1分桶其实Hive表中桶的概念就是MapReduce的分区的概念,两者完全相同...
2024-11-21 wxchong 开源技术 73 ℃ 0 评论 -
这个用Python编写的大数据测试工具,我给100分
数据对于任何一个企业来说都是非常重要的,为了保证数据ETL流程的质量及效率,很多公司都会引入ETL工具。目前ETL工具有很多,但是针对ETL测试的测试工具在业界却比较少见。这是为什么呢?主要是因为在日常ETL测试过程中会...
2024-11-21 wxchong 开源技术 69 ℃ 0 评论 -
Presto 常用性能优化技巧
Presto是一个用于分析的开源分布式ANSISQL查询引擎,支持计算和存储的分离。性能对于一些分析查询尤其重要,因此Presto有许多设计特性来最大化Presto的速度,比如内存中的流水线执行(memorypipelin...
2024-11-21 wxchong 开源技术 83 ℃ 0 评论
- 01-29笔记本死机画面卡住不动(电脑静止一段时间就卡住不动)
- 01-29华为手机如何截图截屏(华为手机怎样截屏最快)
- 01-29联想电脑笔记本电脑(联想电脑笔记本电脑出现skype)
- 01-29cmd命令恢复u盘(cmd命令修复u盘)
- 01-29lol网络正常但是连接不进去(英雄联盟网络正常但是无法进游戏)
- 01-29windowsxp是(windowsxp是什么时候正式发布)
- 01-29原神下载(原神下载云游)
- 01-29截图怎么截全图(截全图怎么操作)
- 控制面板
- 网站分类
- 最新留言
-
