大数据已经成为这个时代的标志,如何理解和运用大数据,也是我们这个时代的重中之重。今天,青莲读书会为书友们精选9本大数据书单,希望能够有助于在大数据方面的学习。
《集体智慧编程》作者:[美]TOBYSEGARAN
翻译:莫映/王开福本书由StuQ/InfoQ大数据专家交流群倾力推荐。
本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。本书是Web开发者、架构师、应用工程师等的 选择。
《数据挖掘导论》作者:Pang-NingTan/MichaelSteinbach/VipinKumar翻译:范明/范宏建
本书全面介绍了数据挖掘,涵盖了五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都有两章。前一章涵盖基本概念、代表性算法和评估技术,而后一章讨论高级概念和算法。这样读者在透彻地理解数据挖掘的基础的同时,还能够了解更多重要的高级主题。
《HadoopTheDefinitiveGuide》作者:[美]TomWhite
本书是学习Hadoop的权威指南,是您纵情享用数据之美的得力助手。作为处理海量数据集的理想工具,ApacheHadoop架构是MapReduce算法的一种开源应用,是Google(谷歌)开创其帝国的重要基石。
本书内容丰富,展示了如何使用Hadoop构建可靠、可伸缩的分布式系统,程序员可从中探索如何分析海量数据集,管理员可以了解如何建立与运行Hadoop集群。
本书完全通过案例学习来展示如何用Hadoop解决特殊问题,如果您拥有海量数据,无论是GB级还是PB级,Hadoop都是完美的选择。本书是这方面最全面的参考。
《机器学习实战》作者:PeterHarrington翻译:李锐/李鹏/曲亚东/王斌
机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存、谋发展的决定性手段,这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。本书 部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。全书通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效的可复用Python代码来阐释如何处理统计数据,进行数据分析及可视化。通过各种实例,读者可从中学会机器学习的核心算法,并能将其运用于一些策略性任务中,如分类、预测、推荐。另外,还可用它们来实现一些更高级的功能,如汇总和简化等。
《大数据时代》作者:[英]维克托·迈尔-舍恩伯格,[英]肯尼思·库克耶翻译:盛杨燕,*不用说了,肯定是这本书。读完这本书,要求你形成大数据的概念,即知道这么几点:1、绝不是有很多数据就叫大数据;2、大数据是一种数据分析方式,与传统数据分析方式有着本质上的不同;3、大数据的特点是“哪家医院能治好白癜风广州治疗白癜风医院