历届中国大数据技术大会PPT精粹下载-中存储网

2013-10-14 00:00:00 来源：中存储

Hadoop起源于2002年的Apache Nutch项目，是Apache Lucene的子项目之一。2004年，Google在OSDI上公开发表了题为《MapReduce: Simplified Data Processing on Large Clusters》的论文，受到启发的Doug Cutting等人开始实现MapReduce计算框架并与NDFS（Nutch Distributed File System）结合支持Nutch的主要算法。2006年逐渐成为一套完整而独立的软件，起名为Hadoop。
　　2008年初，Hadoop成为Apache顶级项目。也是在这一年，首届中国大数据技术大会在北京举行。过去六年，Hadoop从名不见经传的菜鸟，一跃成为大数据领域的黄色大象。
　　以下为历届中国大数据技术大会PPT精粹第一部分：
　　MemSQL联合创始人兼CTO Nikita Shamgunov解析“实时数据分析”
temp_13101415146899.pdf　　Nikita把如今的时代比做是摩尔定律的尾声，指出如今的计算速度不会再像以前那么快，然而数据的发展速度却丝毫没有停止，同时数据的多样性也完全爆发。他认为如今大数据技术最大的难题就是延迟问题，尤其是数据延迟和查询延迟。在对比了Twitter的Strom和Cloudera的Impala技术之后，他详细介绍了MemSQL的性能。
　　阿里巴巴集团数据交换平台资深专家强琦：大数据探索
temp_13101415141131.pdf　　强琦称，阿里巴巴将建立一个数据交换平台，每个人都可以从这个平台获得有价值的数据，但同时需要贡献自己的数据，这些零散的数据将组成一个蓝海，要像银行一样玩数据。
　　Ted Yu：如何在企业中应用HBase
temp_13101415172243.pdf　　Ted拥有14年软件开发经验，以及超过两年的HBase开发经验，2011年成为HBase代码提交者和PMC的成员。
　　Hortonworks戴建勇：解读Apache Pig的性能优化
temp_13101415177946.pdf　　戴建勇从充分利用Combiner、构建基于规则的优化器、利用Column Pruner以及使用Push up filter等角度，在分区pruning、压缩中间文件、合并MapReduce作业和控制合并粒度等方面详细演示了如何对Apache Pig的性能进行优化。
　　华为高级技术经理Anoop Sam John：HBase的二级索引
temp_13101415173453.pdf　　Anoop介绍了华为在实际工程中对于HBase的优化工作，并分享了华为基于开源社区建设及长期工程积累的经验。除此之外，Anoop Sam John还重点介绍了华为构建的HBase二级索引能力。
　　网易资深工程师顾费勇：海量数据搬运工——DataStream
temp_13101415181030.pdf　　顾费勇探讨了Datastream产生的原因，结构和特征，关键技术点分享，应用场景和未来展望。大数据最主要的两个关键技术，一个是数据搜集，一个是数据整合与分析。顾费勇介绍网易在数据搜集方面做了比较完整的平台，但没有跟后端的数据分析组成一个完整的大数据平台。
　　威斯康星大学计算机系教授Miron Livny：当Condor遇到Hadoop时的机遇和挑战
temp_13101415181150.pdf　　集成了Hadoop的超级计算机集群Condor形成了非常强大的计算机系统，它的能力达到了可以处理类似于人类基因组合这样复杂的问题。它用高吞吐量特性代替了传统的高性能计算，这正好符合了大部分科研对高吞吐量的要求，而不是瞬间的处理速度。
　　Yahoo!巴塞罗那研究院科学家Flavio Junqueira：Apache BookKeeper——高性能可靠预写式日志
temp_13101415189355.pdf　　为了高效的顺序写入，较好的容错性和可扩展性，设计了BookKeeper。它的结构由他们组成：Bookie（存储节点），Ledger（日志文档），Ensemble（用一组Bookie存储Ledger）。
　　Facebook研发部经理邵铮：Puma与数据高速公路——实时数据流与分析
temp_13101415189033.pdf　　邵铮介绍了Facebook的分析工具和实时数据的使用案例，以及对于可扩展的数据流如何处理，Puma2和Puma3的结构及不同。
　　百度基础架构部高级研发工程师刘景龙：HDFS的透明压缩存储和压缩传输
temp_13101415185482.pdf　　为节省更多的存储空间，避免压缩过程影响计算作业，并且使这一过程对用户透明，百度在HDFS下使用了透明压缩存储和压缩传输的技术。
　　Facebook公司Jerry Chen/Liyin Tang：在HBase上构建关键业务通信系统
temp_13101415191745.pdf　　Facebook选择了HBase，因为它具有高吞吐量，非常良好的随机读取性能，很不错的扩展性，也具有自动备缓功能，很强的兼容性和HDFS的优点。Facebook通常将Small Message，Message metadata和搜索索引存储在HBase中。

继续阅读 Hadoop安装