最新开发笔记
  • ThinkinginBigDate(九)大数据hadoop集群下离线数据存储和挖掘
    前序:2月23日,在中关村,海淀黄庄丹棱街SOHO大厦好未来会议室,hadoop专家吴超大侠,分享使用hadoop进行论坛日志分析。在回来的第二天,赶上了这次草根面对面交流。说是草根,像我这样的是草根,其余的都是大侠。在这一次交流中,主要是针对初级想了解had ... [详细]
    蜡笔小新   2021-09-09 12:23:59
  • 日期:20131013系统:Ubuntu12.04LTSJDK:1.7.0_21Nutch:2.2.1MySQL:5.5.32------------------------------------------------------------------------------------------------------------------------------------------------------------ ... [详细]
    蜡笔小新   2021-09-09 11:49:05
  • HBase快速导入数据--BulkLoad
    ApacheHBase是一个分布式的、面向列的开源数据库,它可以让我们随机的、实时的访问大数据。但是怎样有效的将数据导入到HBase呢? ... [详细]
    蜡笔小新   2021-09-09 11:19:28
  • HBase官方提供了基于Mapreduce的批量数据导入工具:Bulkload和ImportTsv。关于Bulkload大家可以看下我另一篇www.linuxi ... [详细]
    蜡笔小新   2021-09-09 11:19:16
  • 其他都没啥这个jar都在这里了。importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Te ... [详细]
    蜡笔小新   2021-09-09 10:24:51
  • Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。当然在百度百科上这种方法在Nutch1.2之后,已经不再适合这样描述Nutch了,因为在1.2版本之后,Nutch专注的只是爬取数据,而全文检索的部分彻底 ... [详细]
    蜡笔小新   2021-09-09 09:30:48
  • 3.2分布式搭建hostname角色登录用户IP网关hapmaster主控masterhadoop210.31.181.211210.31.181.1hapslave1附属slavehadoop210.31.181.216210.31.181.1hapslave2附属slavehadoop210.31.181.217210.31.181.1hapslave3附属slavehadoop2 ... [详细]
    蜡笔小新   2021-09-09 09:24:33
  • 写在前面:1.Apache版本HADOOP云计算平台环境搭建1.1集群环境介绍Hadoop集群环境包含1台机器,在每台机器上运行4台虚拟机,是一个典型的主从式(Master-Slaves)结构。集群包含一个主控节点(Master)和4个从属节点(Slave)。在主从式结构中,主节点一 ... [详细]
    蜡笔小新   2021-09-09 09:24:31
  • 软件版本JDK:jdk-7u45-linux-x64.tarSpark:spark-0.9.0-incubating-bin-hadoop2.tgzScala:scala-2.10.3.tgzHadoop:hadoop-2.2.0_x64.tar.gz集群状况adai1:MasterNameNodeResourceManagerSecondaryNameNodeadai2:WorkerDataNodeNodeManager ... [详细]
    蜡笔小新   2021-09-09 09:18:33
  • 前言hadoop是分布式系统,运行在linux之上,配置起来相对复杂。对于hadoop1,很多同学就因为不能搭建正确的运行环境,导致学习兴趣锐减。不过,我有免费的学习视频下载,请点击这里。hadoop2出来后,解决了hadoop1的几个固有缺陷,比如单点故障、资源利用 ... [详细]
    蜡笔小新   2021-09-09 09:11:58
  • hadoopmapreduce数据去重假设我们有下面两个文件,需要把重复的数据去除。file0[plain]2012-3-1a2012-3-2b2012-3-3c2012-3-4d2012-3-5a2012-3-6b2012-3-7c2012-3-3cfile1[plain]2012-3-1b2012-3-2a2012-3-3b2012-3-4d2012-3- ... [详细]
    蜡笔小新   2021-09-09 07:40:38
  • hadoopmapreduce多表关联假设有如下两个文件,一个是表是公司和地址的序号的对应,一个表是地址的序号和地址的名称的对应。表1:[plain]A:BeijingRedStar1A:ShenzhenThunder3A:GuangzhouHonda2A:BeijingRising1A:GuangzhouDevelopmentBa ... [详细]
    蜡笔小新   2021-09-09 07:40:14
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有