/ 中存储网

Dropbox邵铮:我怎么看Hadoop Summit 2015和Spark Summit 2015?

2015-07-01 10:23:00 来源:中存储网

Dropbox研发经理邵铮,是我们2014中国大数据技术大会的程序主席。近期美国有两场重要的技术会议。Hadoop Summit 2015 和 Spark Summit 2015,中国技术圈都有组团参加。我们在7A程序员电子刊中都有相应的观察稿件。但同时参加两场会议的,知之甚少。昨天讨论Spark峰会和Docker峰会的对比时,还在思考。看来有共同问题的朋友还有很多,刚看到知乎上的一个帖子:

怎么看Hadoop Summit 2015 and Spark Summit 2015?
首先,IBM 要在spark 上面拼了,据说要全公司参与到spark里面,因为spark还在初创阶段,所以早参入必然好处多。其他几个大公司比如google,ms是怎么看的?
Schedule 里有不少有意思的topic,大家觉得那些比较有意思的?
因为hadoop summit 上周也在san jose 开了,所以合并为一个问题吧。
Dropbox研发经理邵铮的观点非常值得品味。

我参加了今年的这两个大会。我来说一说我个人的感受吧。

首先,IBM(如楼主所说的)宣称在Spark上拼了,只是因为IBM在Big Data领域的发展太慢(相对互联网企业而言),所以想乘上Spark这班快车,赶超过去。这到底对IBM公司有多大帮助,我不是非常的乐观。而其它几家大公司早有类似的技术布局,所以没有必要像IBM宣称的那样孤注一掷。

下面是详细的感受。

会议资料

Hadoop Summit 2015: 日程,录像,PPT
Spark Summit 2015: 日程(含录像与PPT), 完整录像(Track A,Track B,Track C)

会议规模

大数据的社区规模在不断的扩大。今年的两个会议的参会人数都创了新高。Hadoop Summit 2015的参会人数是4000,同比增长30%(2014:3100,2013:2600,2012:2100,2011:1600,2010:1200)。Spark Summit 2015的参会人数是2000,同比增长300%(2014:500)。可以看出,Hadoop Summit的参会人数还在加速增长,但是增长速度远远不及Spark Summit。值得一提的是这两个会议的门票都要上千美金,所以这么多的参会人数很好的反映出了目前大数据的热门程度。另外,两个大会上有很多不同行业的公司现身说法,讲述Hadoop/Spark技术的应用,可以说大数据已经在很多行业落地生根了。

关于为什么Spark的发展速度比Hadoop更快,我认为有以下几点原因:

1. Spark非常容易使用。Spark Notebook,Spark与Java/Scala/Python/R的互操作性都做得非常好。而Hadoop的早期用户和社区的主要贡献者都来自于大公司,服务于资深用户。资深用户更关注功能是否完善、系统是否稳定,而易用性就不是主要的考虑因素。

2. Spark是为交互式使用设计的。这体现在聚焦于规模较小的数据处理应用,因而使用内存来加速变得非常重要。这也体现在剔除很多不必要的开销,例如JVM启动时间、polling/heartbeat interval、用来防止出现Self-DDOS的sleep/wait。而Hadoop社区的决定者很多都是大公司。在那里,超大规模的数据计算是最重要的,而几秒钟的启动时间和等待都是无关紧要的。

3. Spark的Committer非常注重发展外部的代码贡献者。一开始,辅导外部的代码贡献者来提交patch可能比Committer自己写code提交patch更慢,但是辅导外部的代码贡献者是一个很好的投资,可以有长期的回报。显然,这个策略在Spark身上非常奏效。

相对来说,Spark的技术比较新,所以运维稳定性、调试等方面不及Hadoop的相关技术。今年Berkeley AMPLAB就专门在USENIX NSDI 2015上发表了一篇文章 Making Sense of Performance in Data Analytics Frameworks 来讲述如何调试Spark的性能问题。

趋势

1. Hadoop技术进一步的成熟。Hadoop最近的比较大的进步都是在运维稳定性和性能上的,例如HA(High Availablility)for YARN ResourceManager,Rolling Upgrades,Erasure Coding Support inside HDFS 等等。 相对来说,用户可用的新功能较少。

2. Spark在Machine Learning和Data Science/Statistics用户中的普及非常快。Spark Notebook,MLLib,SparkR 是Spark的几个杀手级的产品。SparkSQL中的DataFrame也是一个非常有效的功能,但SparkSQL在Data Warehouse领域(如ETL,BI等)的前景还有待进一步的观察,因为SparkSQL毕竟是后来者。

3. Spark和Hadoop的生态系统在融合。这点可以参见Hadoop & Spark, Perfect Together。Hadoop和Spark各自都有很多子项目。对于一个大数据的高级用户来说,他/她所做的决定一定不是”我到底用Hadoop还是Spark“,而是"我到底用Hadoop的哪些组件和Spark的哪些组件"。所以,对Hadoop和Spark的各个子项目的了解变得非常重要。

我最关注的技术

1. YARN。YARN是Hadoop 2的计算资源管理调度系统,可以说YARN是Hadoop 1和Hadoop 2的最主要的区别。YARN从2010年开始开发,2013年10月发布第一版,到现在已经有5年历史,所以技术也相对成熟了,可以在生产环境中稳定的使用。目前Dropbox的Hadoop机群就在迁移到YARN的过程当中。

感兴趣的同学建议先读一读 Hadoop YARN的Blog。然后重点关注这些新功能:Rolling upgrades,Support for Long-running services (HBase, Storm, Kafka), support for Docker containers。将来YARN会有更多的监测和调试功能(如Timeline server Next Generation),也值得关注。

2. Hive与Stinger。Stinger是2013-2014年Hive上最大的改进, 号称要把Hive的效率提高100倍。 到今年这项技术已经比较成熟,可以在生产环境中比较稳定的使用了。Stinger包含三大方面的改进:ORCFile(优化列存储),Vectorized Execution(向量计算),Tez(非Map-Reduce的DAG执行系统) 。这是Dropbox的Hadoop机群下一步的升级目标。

3. SparkR。 我之前学过一些统计的课程,很喜欢R语言在数据处理方面的优势。SparkR把Spark和R结合在一起,对于学习统计的同学来说,会有非常大的帮助。我猜想以后很多大数据方面的高级应用(风控建模之类的)会使用SparkR。

4. Project Tungsten。Tungsten会给Spark的性能带来非常大的提升。主要的技术点有:使用Off-Heap Storage并去除Java Object的overhead,Cache-aware Computation,与Code Generation。这个项目还在开发的过程中,有兴趣的同学可以参与进去。

建议

1. 初学者与大数据应用爱好者:建议从2014年的 Databricks Cloud Demo 开始,去Databricks Cloud注册用户(点击右上角"Sign Up for Databricks"),做一些练习,掌握大数据处理的基本流程。

2. 大数据底层技术开发者:建议关注Project Tungsten并且参与进去。

3. 大数据高级用户:建议多多关注各大公司使用这些技术的经验总结,例如Letter from the Trenches: An inside look at Hive at Yahoo 。如果还没有在生产环境中使用YARN与Hive Stinger,建议开始考虑升级。

还有一些好的观点,可见原帖。(编辑/郭雪梅)