当前位置: 首页 > java >正文

你的上网行为就这样被采集走了

1、被采集的数据主要是网页跳转数据:比如你从哪个网页跳转入该购物网站、你点击了哪些商品页面、在商品页面上停留了多少时间。

2、这些数据都保存在web应用服务器的log文件中:有用过iis、apache的同学,会通过log日志分析访问者的区域来源,实际该log文件有很多可以分析的数据。

1、存放在web应用服务器的数据被定时采集至hadoop中进行冷数据存储。通过flume定时监控web服务器中的目录文件,一旦发生变化,flume将数据传输至hdfs,作为非实时数据分析的基础。这样,我们可以根据数据分析的结果向你推送你关心的商品页面。

2、同时被放入kafka、storm进行流式数据分析。如果管理者需要看到全国不同省的访问热度,我们同时将Flume的数据送一份至kafka中,作为热数据分析源数据。

提到大数据,一定会有一个组件flume会出现,否则数据无来源。flume有几个关键的特性,作为面试的经常问答题。

1、flume有几个组件:source、channel、sink。source指定数据采集源,一般源头:netcat(网络流)、exec(文件)等。channel配置拦截器等最重要的配置。sink配置下游的数据,下游一般是hdfs、kafka等载体。

采集telnet数据的flume配置举例:

2、channel有几种承载方式:内存承载、文件承载,如果是内存方式,flume服务器一旦断电,采集的数据会丢失,但这种丢失大部分场景结果可控,建议建议内存承载,提高效率。

3、source中有几种方法:toPut、PutList、toCommit、RollBack,是标准的一个java类中的方法。具体连续的数据流程。

http://www.xdnf.cn/news/11718.html

相关文章:

  • 全球排名前十的搜索引擎,你猜百度排名在第几位?bing稳居二位!
  • arm9芯片包括哪些?arm9如何应用?
  • MySQL查看SQL语句执行效率和mysql几种性能测试的工具
  • 各种视频输出端口(HDMI、DVI、VGA、RGB、分量、S端子)图片说明 .
  • GRUB2配置详解:默认启动项,超时时间,隐藏引导菜单,配置文件详解,图形化配置...
  • Web服务和XFire实现Webservice的几种方式
  • list map 处理方式
  • 索爱Xperia Play (Z1i)如何解锁? 如何root? 怎么刷机?
  • P1914 小书童——密码
  • 《网络基础学习之七》构建对等网
  • 国内国外最好的BT站点
  • U盘格式化后容量变小问题修复方案
  • 闪讯钳制下Linux系统上网解决方案
  • 理解高斯混合模型中期望最大化的M-Step
  • Lullaby for Lucas
  • java实现简单留言板功能的代码实例
  • 汽车租赁管理系统/汽车租赁网站的设计与实现
  • OpenLDAP基础知识介绍
  • Python 爬虫---百度首页
  • 辽宁活跃ip段_风景文创 | 有了IP就万事大吉?IP授权了解一下
  • B2C大点名:国内B2C网站收集
  • QQ宠物保姆V2.6最新版赶快抢先下载(转)
  • 论道HTML5 PDF扫描版
  • protel99se基本教程及使用教程
  • 【错误记录】在 Android Studio 的 Terminal 终端执行 gradlew 报错 ( 无法将“gradlew”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称 )
  • SQL Server2008安装报错,解决方案
  • 重磅推荐,国内国外优秀的素材资源网站
  • 2005年度世界500强公司名单
  • 【技术贴转】破解Normal Tanks第五关LICENCE CODE
  • python两行数据相加_用python制作全国身份证号验证及查询系统