第一部分:入门级工具1.ExcelExcel的图形化功能并不强大,但Excel是分析数据的理想工具,上图是Excel生成的热力地图作为一个入门级工具,Excel是快速分析数据的理想工具,也能创建供内部使用的数据图,但是Excel在颜色、线条和样...

作者:Fan Hong在许多机器学习任务中,人工神经网络尤其是近些年发展起来的深度学习网络,已经取得了十分瞩目的结果。然而,以前研究者往往将神经网络的内部行为当作黑盒来看待,神经网络到底学习到了什么并不了解。近些年来,研究...

作者:刘永平文章梳理了学习大数据挖掘分析的思路与步骤,给大家提供一些参考,希望能够对你有所帮助。最近有很多人咨询,想学习大数据,但不知道怎么入手,从哪里开始学习,需要学习哪些东西?对于一个初学者,学习大数据挖掘分析...

作者: 陈冬大数据系统的应用领域首先回顾一下历史。从中我们可以看到一些趋势,在大数据生态发展的过程中,大数据系统的管理系统,大数据系统的安全,易用性,机器学习不断的补充到生态系统中来并不断完善。早期是 Google 一家...

作者:邓旭东HIT一直很喜欢百度的Echarts,可视化真的很炫酷。虽然有pyecharts库,但我至今没用成功过。Echarts酷炫的功能主要是javascript起作用,想到之前学过Flask框架(Python的Web框架),将Echarts嵌套进Flask的html模板中,...

拥有高方差使得决策树(secision tress)在处理特定训练数据集时其结果显得相对脆弱。bagging(bootstrap aggregating 的缩写)算法从训练数据的样本中建立复合模型,可以有效降低决策树的方差,但树与树之间有高度关联(并不是理想...

作者:王松磊近期我们的数据库团队对原生复制的多个方面进行了深度优化,提升了UDB高可用数据库的功能和性能。今天借社群这个平台,跟大家分享一二。一、UDB高可用数据库架构UDB以虚拟IP、HAProxy、单节点UDB数据库搭建双节点高可...

作者:梁福坤前言:大数据的分布式调度是在进行数据ETL过程中起到了总体的承上启下的角色,整个数据的生产、交付、消费都会贯穿其中,本文从调度、分布式调度的特征展开,再对大数据调度个性化特征的一些阐述,由满足大数据使用的架...

作者:HollyMike随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台:Apache Flume Fluentd Logstash Chukwa Scribe Splunk Forwarder大数据平台与数据采集任何完整的大数据平台,一般包括以...

作者:丁小明丁小明,花名小宝,蘑菇街搜索技术团队负责人。2011年底加入蘑菇街,2013年开始负责搜索团队,见证了蘑菇街一路蓬勃发展的历程,也和团队一起从零起步摸爬滚打,打造了蘑菇街的搜索推荐体系,包括自主研发的C++主搜引擎...