NutchHtmlunitPlugin设置教程
一、NutchHtmlunitPlugin概述
NutchHtmlunitPlugin是一个基于ApacheNutch1.8和Htmlunit组件的扩展实现,用于实现对于AJAX加载类型页面的完整页面内容抓取解析。
二、NutchHtmlunitPlugin配置步骤
- 下载NutchHtmlunitPlugin
下载NutchHtmlunitPlugin的安装包,解压后进入runtime/local/bin目录,运行crawlurlscrawlfalse1//urls
命令,其中参数说明如下:crawl
:爬虫输出目录,设置为false
表示不进行索引处理;1
:爬虫执行回数。
- 配置Nutch-default.xml
在conf/目录下找到nutch-default.xml 文件,打开该文件,在元素中添加以下属性:- `
http.agent.name
NutchHtmlunitPlugin
` fetcher.fetch.depth 2lue>
fetcher.fetch.delay 500
fetcher.http.socket.timeout 60000
fetcher.max.connections.per.host 10
fetcher.max.total.connections 100 property>
fetcher.min.free.sockets 5 operty>
fetcher.retry.interval 60000 property>
fetcher.server.delay 3000 operty>
fetcher.socket.connection_timeout 60000
fetcher.threads 10 y>
fetcher.use 代理服务器name> false
fetcher.userAgent.prefixname> NutchHtmlunitPlugin-
indexer.charset.name UTF-8 property>
indexer.language.code en operty>
indexer.max.chars.per.token 2048 property>
indexer.max.field.length 262144
indexer.max.meta.size 131072
indexer.max.tokens.per.document 10000
indexwriter.merge.factor 100lue>
indexwriter.max_buffered_docs 1000
indexwriter.max_field_length_in_bytes_per_segment 262144 erty>
indexwriter.merge.scheduler.class org.apache.lucene.index.MergeScheduler$LogByteSizeMergePolicy
linkchecker.check.interval.seconds lue>86400
linkchecker.enable.interval.secondsme> 86400
nutch.hosts.file.pathme> /etc/hosts
- `
nutch.proxy.host.nameme>
`
- `erty>
nutch.proxy.port.number
`
ty> nutch.runtime.home lue>${basedir}/apache-nutch-1.8/runtime/local/lue>
- `
nutch.site.regex.file.path
/etc/sites.d/nutch-site.regex.conf
ty>`。
- `
- 重启Nutch
重启Nutch服务,确保配置生效。
三、NutchHtmlunitPlugin效率提升技巧
- 优化网络环境
确保网络连接稳定,减少网络延迟对爬取效率的影响。 - 合理设置线程数
根据硬件资源情况合理设置fetcher.threads 参数,避免因线程过多导致资源浪费或响应缓慢。 - 使用代理服务器
在nutch-default.xml 中启用fetcher.use 代理服务器,可以提高爬取速度和稳定性。 - 定期清理无用数据
定期清理不必要的数据,如使用linkchecker工具检测并删除死链,可以保持系统的高效运行。
四、NutchHtmlunitPlugin常见问题解决
- Permission denied错误
如果遇到此类错误,可以尝试运行chmod+xbin/nutch
命令。 - JAVA_HOME未设置
如果出现JAVA_HOME未设置的提示,需要设置JAVA_HOME环境变量。
以上就是NutchHtmlunitPlugin的设置教程和配置攻略,希望能帮助你提升爬取效率。
原创文章,作者:Ur47000,如若转载,请注明出处:https://wyc.retuba.cn/5297.html