怎么在hadoop中实现一个java爬虫-创新互联
今天就跟大家聊聊有关怎么在hadoop中实现一个java爬虫,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
成都创新互联-专业网站定制、快速模板网站建设、高性价比江口网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式江口网站制作公司更省心,省钱,快速模板网站建设找我们,业务覆盖江口地区。费用合理售后完善,10年实体公司更值得信赖。需要用到
Cygwin:一个在windows平台上运行的类UNIX模拟环境,直接网上搜索下载,并且安装;
Hadoop:配置Hadoop环境,实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS,用来将收集的数据直接上传保存到HDFS,然后用MapReduce分析;
Eclipse:编写代码,需要导入hadoop的jar包,以可以创建MapReduce项目;
Jsoup:html的解析jar包,结合正则表达式能更好的解析网页源码;
----->
目录:
1、配置Cygwin
2、配置Hadoop黄静
3、Eclipse开发环境搭建
4、网络数据爬取(jsoup)
-------->
1、安装配置Cygwin
从官方网站下载Cygwin 安装文件,地址:https://cygwin.com/install.html
下载运行后进入安装界面。
安装时直接从网络镜像中下载扩展包,至少需要选择ssh和ssl支持包
安装后进入cygwin控制台界面,
运行ssh-host-config命令,安装SSH
输入:no,yes,ntsec,no,no
注意:win7下需要改为yes,yes,ntsec,no,yes,输入密码并确认这个步骤
完成后会在windows操作系统中配置好一个Cygwin sshd服务,启动该服务即可。
然后要配置ssh免密码登陆
重新运行cygwin。
执行ssh localhost,会要求使用密码进行登陆。
使用ssh-keygen命令来生成一个ssh密钥,一直回车结束即可。
生成后进入.ssh目录,使用命令:cp id_rsa.pub authorized_keys 命令来配置密钥。
之后使用exit退出即可。
重新进入系统后,通过ssh localhost就可以直接进入系统,不需要再输入密码了。
2、配置Hadoop环境
修改hadoop-env.sh文件,加入JDK安装目录的JAVA_HOME位置设置。
# The java implementation to use. Required. export JAVA_HOME=/cygdrive/c/Java/jdk1.7.0_67
标题名称:怎么在hadoop中实现一个java爬虫-创新互联
网页网址:http://azwzsj.com/article/pcjgj.html