见证新一代全能大数据计算平台崛起——中国Spark技术峰会将于4月19日在北京召开-中存储网

2014-03-31 17:16:00 来源：中存储网

2014年4月19日，由CSDN和《程序员》杂志联合举办的“2014中国Spark技术峰会”（Spark Summit China）将在北京召开，国内外Apache Spark社区成员和企业用户将首次齐聚一堂。来自AMPLab、Databricks、Intel、淘宝、腾讯、网易等国内外多家机构的Spark贡献者及一线开发者将分享Spark的现状与未来，各种计算范式的实际操作，新创业公司基于Spark的产品发布，以及生产环境中使用Spark及相关项目的第一手经验和最佳实践方案。

超越Hadoop的全能大数据计算平台

随着大数据相关技术和产业的逐渐成熟，单个组织内往往需要同时进行多种类型的大数据分析作业：传统Hadoop MapReduce最为擅长的批量计算、各种机器学习算法为代表的迭代型计算、流式计算、社交网络中常用的图计算、SQL关系查询、交互式即席查询等。在Spark出现前，要在一个组织内同时完成以上数种大数据分析任务，就不得不与多套独立的系统打交道，一方面引入了不容小觑的运维复杂性，另一方面还免不了要在多个系统间频繁进行代价高昂的数据转储。

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台，它立足于内存计算，性能超过Hadoop百倍，从多迭代批量处理出发，兼收并蓄数据仓库、流处理和图计算等多种计算范式，是罕见的全能选手。Spark当下已成为Apache基金会的顶级开源项目，拥有着庞大的社区支持（活跃开发者人数已超过Hadoop MapReduce），技术也逐渐走向成熟。

议题精彩纷呈，案例首次分享

对企业来说，搭建Spark配合现有平台，需要拥有专业的团队实现与维护——对Spark拥有全面和深入的理解，才能开发出高效可靠的应用。本次大会将围绕Spark的多个方面做出权威而全面的解读，多个案例将在大会中首次分享。

Spark的现状与未来

Andy Konwinski是Spark创始团队AMPLab成员，集群调度系统Mesos作者，Databricks联合创始人，美国Spark Summit组织者。他将带来有关Spark发展现状与未来的权威解读。

基于Spark Graphx的大规模用户图计算和应用

明风是淘宝技术部数据挖掘与计算团队负责人，带领团队构建了国内第一个100台规模的Spark on Yarn集群，并基于Spark进行大量机器学习，实时计算和图计算的先行尝试，并将实践成果成功地应用于淘宝网数据相关的业务和产品。

面对淘宝的海量用户，如何基于亿级别的用户和十亿级别的关系链，进行高效的关系构建，社区发现和属性传播，一个高效强大的分布式图计算引擎必不可少。开发时，如何提升性能，计算的结果怎样才能得到高效应用？本演讲将带给你满意的答案。

当机器学习遇到大数据系统——从Spark MLlib看两者的混合发展

尹绪森是Intel工程师，对Spark、Mahout、GraphLab等开源项目拥有实际经验和深度理解。MLlib的出现让我们看到在一个成熟的大数据栈上构建简洁、易用、高效的机器学习算法的希望。当机器学习遇到大数据系统，究竟会产生怎样的火花？他的演讲将从MLlib看两者的混合发展。

Spark性能优化

陈超就职于皮皮网，担任数据平台负责人，负责公司所有数据分析与数据挖掘相关的项目。他是国内较早的Spark研究与使用者，Spark Contributor，目前专注于基于Spark平台的大数据处理。演讲将分享Spark的核心原理，并在此基础上探讨几个Spark性能的优化点。

快速模型更新在精准广告推荐中的应用

薛伟是腾讯精准推荐中心广告推荐负责人，2011年加入腾讯数据平台部，之后一直从事云计算、海量数据分析和数据挖掘、精准推荐相关的研发工作。腾讯广点通团队长期从事社交网络展示广告的技术研究和应用，从Spark诞生之初就开始关注这项技术和这个开源项目，并在广点通项目中进行了长期的应用实践。在这个报告中，他将介绍如何综合运用包括Spark在内的技术来实现广告推荐模型的快速更新。

Tranwarp Inceptor：基于Spark引擎的高速内存分析和挖掘工具

孙元浩是星环科技联合创始人及CTO，他将介绍如何构建分布式内存列式存储，以及如何利用PL/SQL和R语言对内存数据进行高速数据统计和挖掘。

Spark内核探索与性能优化

连城是Spark Contributor，即将加入Databricks工作。Catalyst/Spark SQL是新近加入Spark主线版本的alpha组件，它是一套简洁强大的SQL查询计划优化框架。随着时间的推移，已逐渐进化为一整套完整的SQL on Spark解决方案并更名为Spark SQL。它的主要特点包括：向下兼容HiveQL，支持针对原生RDD对象的关系查询，可对用户编写的HQL/SQL查询进行有效优化，实现了一套可扩展的代码生成框架，可以针对特定逻辑直接生成字节码，进一步提升性能。它将成为Shark的新引擎。

面向实时计算和ETL处理的Shark应用

王健宗是网易大数据高级研究员，负责网易游戏大数据框架的研究和部署工作，在其推广下成功将Spark稳定应用在生产环境中。他的演讲将介绍应用Spark时的经验和教训，希望这些经验总结能为大家应用落地Spark提供参考和帮助。

为了保证“Spark中国技术峰会”内容的高品质，国内Spark领域的最权威专家组成了程序委员会，成员包括Databricks联合创始人，Spark、Shark、GraphX等项目核心作者辛湜（Reynold S. Xin）；Spark Committer，英特尔亚太研发有限公司架构师夏俊鸾；英特尔中国研究院首席工程师吴甘沙；以及CSDN暨《程序员》总编，图灵公司创始人刘江。

更多精彩尽在2014年4月19日中国Spark技术峰会，现在购票，可享受最低票价优惠。3月27日~4月15日期间，新加入CTO俱乐部会员可七折购买“2014中国Spark技术峰会”门票（原价1000元/张），同时享受本次峰会的VIP通道，包括门票快速开通、现场专人签到服务等独享机会。

申请流程：点击，用CSDN ID注册申请加入CTO俱乐部，在推荐人一栏标注“购买Spark大会门票”，待后台审核通过即可收到优惠专享通道。为保证参会服务，请您最晚于4月15日前提交并购买门票。

继续阅读