mapreduce 开发笔记-DevBox开发工具箱

最新开发笔记

hive
ThinkinginBigDate（九）大数据hadoop集群下离线数据存储和挖掘

前序：2月23日，在中关村，海淀黄庄丹棱街SOHO大厦好未来会议室，hadoop专家吴超大侠，分享使用hadoop进行论坛日志分析。在回来的第二天，赶上了这次草根面对面交流。说是草根，像我这样的是草根，其余的都是大侠。在这一次交流中，主要是针对初级想了解had ... [详细]

蜡笔小新 2021-09-09 12:23:59
mysql
Ubuntu12.04+Nutch2.2.1+MySQL 配置笔记

日期：20131013系统：Ubuntu12.04LTSJDK：1.7.0_21Nutch：2.2.1MySQL：5.5.32------------------------------------------------------------------------------------------------------------------------------------------------------------ ... [详细]

蜡笔小新 2021-09-09 11:49:05
apache
HBase快速导入数据--BulkLoad

ApacheHBase是一个分布式的、面向列的开源数据库，它可以让我们随机的、实时的访问大数据。但是怎样有效的将数据导入到HBase呢？ ... [详细]

蜡笔小新 2021-09-09 11:19:28
zookeeper
ImportTsv－HBase数据导入工具

HBase官方提供了基于Mapreduce的批量数据导入工具：Bulkload和ImportTsv。关于Bulkload大家可以看下我另一篇www.linuxi ... [详细]

蜡笔小新 2021-09-09 11:19:16
eclipse
Hadoop2.0 YARN cloudra4.4.0 WordCount实例

其他都没啥这个jar都在这里了。importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Te ... [详细]

蜡笔小新 2021-09-09 10:24:51
容器
Nutch1.8+Hadoop1.2+Solr4.3分布式集群配置

Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。当然在百度百科上这种方法在Nutch1.2之后，已经不再适合这样描述Nutch了，因为在1.2版本之后，Nutch专注的只是爬取数据，而全文检索的部分彻底 ... [详细]

蜡笔小新 2021-09-09 09:30:48
eclipse
ubuntu12.04+hadoop2.3.0+eclipse+IHPI安装配置

3.2分布式搭建hostname角色登录用户IP网关hapmaster主控masterhadoop210.31.181.211210.31.181.1hapslave1附属slavehadoop210.31.181.216210.31.181.1hapslave2附属slavehadoop210.31.181.217210.31.181.1hapslave3附属slavehadoop2 ... [详细]

蜡笔小新 2021-09-09 09:24:33
容器
Apache Hadoop1.1.1+Apache Oozie3.3.2搭建安装过程详解（亲测）

写在前面：1.Apache版本HADOOP云计算平台环境搭建1.1集群环境介绍Hadoop集群环境包含1台机器，在每台机器上运行4台虚拟机，是一个典型的主从式（Master-Slaves）结构。集群包含一个主控节点（Master）和4个从属节点（Slave）。在主从式结构中，主节点一 ... [详细]

蜡笔小新 2021-09-09 09:24:31
spark
Hadoop2.2.0+Spark0.9.0分布式搭建

软件版本JDK：jdk-7u45-linux-x64.tarSpark：spark-0.9.0-incubating-bin-hadoop2.tgzScala：scala-2.10.3.tgzHadoop：hadoop-2.2.0_x64.tar.gz集群状况adai1:MasterNameNodeResourceManagerSecondaryNameNodeadai2:WorkerDataNodeNodeManager ... [详细]

蜡笔小新 2021-09-09 09:18:33
json
hadoop2的automatic HA+Federation+Yarn配置的教程

前言hadoop是分布式系统，运行在linux之上，配置起来相对复杂。对于hadoop1，很多同学就因为不能搭建正确的运行环境，导致学习兴趣锐减。不过，我有免费的学习视频下载，请点击这里。hadoop2出来后，解决了hadoop1的几个固有缺陷，比如单点故障、资源利用 ... [详细]

蜡笔小新 2021-09-09 09:11:58
hadoop
hadoop mapreduce数据去重

hadoopmapreduce数据去重假设我们有下面两个文件，需要把重复的数据去除。file0[plain]2012-3-1a2012-3-2b2012-3-3c2012-3-4d2012-3-5a2012-3-6b2012-3-7c2012-3-3cfile1[plain]2012-3-1b2012-3-2a2012-3-3b2012-3-4d2012-3- ... [详细]

蜡笔小新 2021-09-09 07:40:38
hadoop
hadoop mapreduce多表关联

hadoopmapreduce多表关联假设有如下两个文件，一个是表是公司和地址的序号的对应，一个表是地址的序号和地址的名称的对应。表1：[plain]A:BeijingRedStar1A:ShenzhenThunder3A:GuangzhouHonda2A:BeijingRising1A:GuangzhouDevelopmentBa ... [详细]

蜡笔小新 2021-09-09 07:40:14

Tags | 热门标签

RankList | 热门文章