spark 准实时离线分析

sparkshuffle，使用Spark技术，Storm和Spark ，你对spark的源代码了解多少？很难直接比较hadoop和Spark，因为它们处理许多相同的任务，但它们在某些方面没有重叠。Spark与Hadoop及其模块兼容。
1、大数据分析应该掌握哪些基础知识呢? 离线数据库:Java、MySQL、Maven、Git、OpenResty、Linux、Shell、HDFS、YARN、Zookeeper、MapReduce、Scala、Python、SparkCore、Hive、SparkSQL、Presto、Sqoop、DataX、Flume、CDH、数据仓库架构、维度建模、超集、Azkaban、Airflow等
2、聊聊批计算、流计算、Hadoop、Spark、Storm、Flink等等 batch:正在处理离线 data，冷数据。单次处理数据量大，处理速度比流慢。流:处理在实时在线生成的数据。一次处理的数据量较小，但处理速度较快。Spark是UCBerkeleyAMPlab开源的类似HadoopMapReduce的通用并行框架。Spark有HadoopMapReduce的优点；但与MapReduce不同的是，Job的中间输出可以存储在内存中，所以不再需要读写HDFS 。所以Spark可以更好的应用于需要迭代的MapReduce算法，比如数据挖掘和机器学习。
3、如何成为云计算大数据Spark高手所谓的大数据平台并不是独立存在的。比如百度依靠搜索引擎获取大数据并开展业务，阿里通过电商交易获取大数据并开展业务，腾讯通过社交获取大数据并开展业务。所以大数据平台不是独立存在的，重点是如何收集和沉淀数据，如何分析 data，挖掘数据的价值。我可能没有资格回答这个问题，也没有经历过一个公司大数据平台从无到有再到复杂的过程。
这是一个需求驱动的过程。曾经听过spotify的分享，印象非常深刻。他们分享说，他们的hadoop集群第一次失败是因为机器放在窗边，太阳晒坏了(笑) 。从一个自己窗口前没有机房的简单集群，到一个复杂的数据平台，这是一个进化的过程。对于小公司来说，找一两台机器搭建一个集群，大概就是一个大数据平台。在初始阶段，数据量会很小，不需要多大规模。
4、应用Spark技术,SoData数据机器人实现快速、通用数据治理Spark是处理海量数据的快速通用引擎。作为大数据处理技术，Spark经常被拿来和Hadoop做比较。Hadoop已经成为大数据技术事实上的标准，HadoopMapReduce也非常适合大规模数据集的批量处理，但是它仍然存在一些缺陷。具体表现为:1 。HadoopMapRedue的表达能力有限。所有的计算都需要转化为Map和Reduce两种操作，这两种操作并不适合所有的场景，也难以描述复杂的数据处理过程。
HadoopMapReduce要求每一步之间的数据都要序列化到磁盘上，所以I/O开销很大，导致interactive 分析和迭代算法开销很大，几乎所有的优化和机器学习都是迭代的。所以HadoopMapReduce不适合交互分析和机器学习。3.计算延迟很高。如果要完成更复杂的工作，必须串联一系列MapReduce作业，然后按顺序执行。
5、Storm与Spark,Hadoop相比是否有优势Storm相比Spark和hadoop有优势。Storm的优势在于Storm是实时的连续分布式计算框架。它一旦运行，就会一直处理计算中或者等待计算的状态，除非你杀了它。Spark和Hadoop做不到。当然，它们各有各的应用场景。各有各的优势。可以一起用。我来翻一翻别人的资料，说的很清楚。Storm、Spark、Hadoop各有千秋，每个框架都有自己的最佳应用场景。
Storm是最好的流式计算框架。Storm是用Java和Clojure写的。Storm的优势是全内存计算，所以它的定位是分布式实时计算系统。按照Storm作者的说法， Storm对于实时计算的意义类似于Hadoop对于批处理的意义。Storm的适用场景:1)流数据处理Storm可以用来处理连续流动的消息，处理后再将结果写入一个存储器。
6、 spark和hadoop的区别很难直接比较Hadoop和Spark ，因为它们以相同的方式处理许多任务，但它们在某些方面并不重叠。例如，Spark没有文件管理功能，因此它必须依赖Hadoop分布式文件系统(HDFS)或其他解决方案。Hadoop框架的主要模块包括以下几个:HadoopCommonHadoop分布式文件系统(HDFS)HadoopYARNHadoopMapReduce虽然以上四个模块构成了Hadoop的核心，但是还有其他几个模块。
Spark真的很快(比HadoopMapReduce快100倍) 。Spark也可以执行批处理，但它确实擅长处理流式工作负载、交互式查询和机器学习。相对于MapReduce基于磁盘的批处理引擎，Spark以data 实时处理功能著称。Spark与Hadoop及其模块兼容。
7、大家对 spark的源码了解多少, sparkshuffle,调度, sparkstreaming的源码...【spark 准实时离线分析】楼主发了很多视频，你可以看看。流是大数据时代的数据流，就像水流一样。既然是数据流处理，我们就会想到数据流入，数据处理，数据流出。日常工作和生活中有很多不同的数据来源。比如工业时代的汽车制造、监控设备、工业设备会产生大量的源数据；电子商务网站、日志服务器、社交网络、金融交易系统、黑客攻击、垃圾邮件、流量监控等。在信息时代；在通信时代，手机、平板、智能设备、物联网都会产生大量的实时数据，数据流无处不在。
平时用户有网上购物的体验，用户在网站上的各种操作都可以通过SparkStreaming技术进行监控，可以进行用户的购买爱好、关注和交易。在金融领域，SparkStreaming流处理技术可用于监控交易量较大的账户，防止犯罪分子洗钱、转移财产和欺诈。