本文涉及到的所有模块,都是属于Apache组织,不包括其他第三方的模块。核心模块:Hadoop Common: 包括Hadoop常用的工具类,由原来的Hadoop core部分更名而来。主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Ha...

作者:达尔文目前很多程序员绘图基本上都是采用后端生成数据传递给前端,然后前端将数据渲染到绘图库上面进行显示,从而得到我们最后看到的各种图,但是有时候,我们发现需要传递的数据很多很多,那么这个时候如果将数据传递给前端...

作者:乔一鸭在数据分析领域,Session是一种专业的数据分析。对于有数据驱动意识的互联网人来说,这并不陌生——Session 即会话,是指在指定的时间段内在网站上发生的一系列互动。例如,一次会话可以包含多个网页或屏幕浏览、事件、社...

作者:Edison_G怎样进入机器学习领域没有定式。我们的学习方式都有些许不同,学习的目标也因人而异。 但一个共同的目标就是要能尽快上手。 如果这也是你的目标,那么这篇文章为你列举了程序员们在通往机器学习高手道路上常见的五种...

作者:Mr_yang推荐算法简介目前的推荐算法一般分为四大类:协同过滤推荐算法基于内容的推荐算法混合推荐算法流行度推荐算法协同过滤的推荐算法协同过滤推荐算法应该算是一种用的最多的推荐算法,它是通过用户的历史数据来...

作者:张逸我在一次社区活动中做过一次分享,演讲题目为《大数据平台架构技术选型与场景运用》。在演讲中,我主要分析了大数据平台架构的生态环境,并主要以数据源、数据采集、数据存储与数据处理四个方面展开分析与讲解,并结合具...

作者:傅一平当前BAT基本公开了其大数据平台架构,从网上也能查询到一些资料,关于大数据平台的各类技术介绍也不少,但在那个机制、那个环境、那个人才、那个薪酬体系下,对于传统企业,可借鉴的东西也是有限的。技术最终为业务服...

简介ELK stack是实时日志处理领域开源的一套解决方案,最近这两年越来越火,大有一统江湖之势。ELK是一套解决方案而不是一款软件,三个字母分别是三个软件产品的缩写。E代表Elasticsearch,负责日志的存储和检索;L代表Logstash, ...

作者:邓旭东HIT为什么要使用UUID?大数据时代,各种网站都需要你注册账号,使用密码。往往大家为了省事,所有的平台的账号密码是一样的,假如某个网站数据泄露后,那你的隐私安全就有问题了,干坏事的有心人就会去窃取你的隐私信息...

译者:钱亦欣引言使用一些建模分析手段来评价电影的成功已经屡见不鲜,这类预测模型常常使用注入电影制作成本,类型,主演,出品方等结构化数据作为输入。然而,在社交媒体日益发达的现在,人们时常会在Twitter,Facebook等网站上...