heritrix多线程抓取--好使

hanyuanbo

浏览: 187534 次
性别:
来自: 深圳

最近访客更多访客>>

DamonDomino

abcd2010

den253176

cj19920801

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

网络信息体系结构

多线程 Scheme .net Apache

最近作业中有个需要用Heritrix抓包的任务，不过抓起来，我真的崩溃了。用我的电脑抓了奖金20个小时，抓了50M。都哭了。不过发现那个active threads项最多只有一个，很多时候都是0。偶表示压力很大。。怎么搞的？？
听朋友说，加上网上搜资料，终于搞定，原来Heritrix采用HostnameQueueAssignmentPolicy来进行对URL处理。url队列以hostname为key，所有相同key的url放置在同一个队列里面，也就是说同一个host下面的所有url都放在一个队列里面，当线程获取url时候，会将该队列放置到同步池中，拒绝其他线程访问。觉得说的有道理，嘿嘿。按照如下步骤进行了尝试，果然，好使。

1. 添加一个新类ELFHashQueueAssignmentPolicy.java

package org.archive.crawler.frontier;

import java.util.logging.Level;
import java.util.logging.Logger;

import org.apache.commons.httpclient.URIException;
import org.archive.crawler.datamodel.CandidateURI;
import org.archive.crawler.framework.CrawlController;
import org.archive.net.UURI;
import org.archive.net.UURIFactory;

public class ELFHashQueueAssignmentPolicy extends QueueAssignmentPolicy {

	private static final Logger logger = Logger
			.getLogger(ELFHashQueueAssignmentPolicy.class.getName());

	private static String DEFAULT_CLASS_KEY = "default...";

	private static final String DNS = "dns";

	@Override
	public String getClassKey(CrawlController controller, CandidateURI cauri) {
		String uri = cauri.getUURI().toString();
		String scheme = cauri.getUURI().getScheme();
		String candidate = null;

		try {
			if (scheme.equals(DNS)) {
				if (cauri.getVia() != null) {
					UURI viaUuri = UURIFactory.getInstance(cauri.flattenVia());
					candidate = viaUuri.getAuthorityMinusUserinfo();
					scheme = viaUuri.getScheme();
				} else {
					candidate = cauri.getUURI().getReferencedHost();
				}
			} else {
				long hash = ELFHash(uri);
				candidate = Long.toString(hash % 100);
			}

			if (candidate == null || candidate.length() == 0) {
				candidate = DEFAULT_CLASS_KEY;
			}
		} catch (URIException e) {
			logger.log(Level.INFO, "unable to extract class key; using default", e);
			candidate = DEFAULT_CLASS_KEY;
		}
		if (scheme != null && scheme.equals(UURIFactory.HTTPS)) {
            if (!candidate.matches(".+:[0-9]+")) {
                candidate += UURIFactory.HTTPS_PORT;
            }
        }

		return candidate.replace(':', '#');
	}

	public static long ELFHash(String str) {
		long hash = 0;
		long x = 0;
		for (int i = 0; i < str.length(); i++) {
			hash = (hash << 4) + str.charAt(i);
			if ((x = hash & 0xF0000000L) != 0) {
				hash ^= (x >> 24);
				hash &= ~x;
			}
		}
		return (hash & 0x7FFFFFFF);
	}
}

2. 修改AbstractFrontier(跟ELFHashQueueAssignmentPolicy.java在同一个包下)

// Read the list of permissible choices from heritrix.properties.
        // Its a list of space- or comma-separated values.
        String queueStr = System.getProperty(AbstractFrontier.class.getName() +
                "." + ATTR_QUEUE_ASSIGNMENT_POLICY,
                ELFHashQueueAssignmentPolicy.class.getName() + " " +//修改之后ELFHash队列分配策略
                IPQueueAssignmentPolicy.class.getName() + " " +
                BucketQueueAssignmentPolicy.class.getName() + " " +
                SurtAuthorityQueueAssignmentPolicy.class.getName() + " " +
                TopmostAssignedSurtQueueAssignmentPolicy.class.getName());
        Pattern p = Pattern.compile("\\s*,\\s*|\\s+");

3. 修改heritrix.properties属性(在conf包下)

#############################################################################
# FRONTIER
#############################################################################

# List here all queue assignment policies you'd have show as a
# queue-assignment-policy choice in AbstractFrontier derived Frontiers
# (e.g. BdbFrontier).
org.archive.crawler.frontier.AbstractFrontier.queue-assignment-policy = \
    org.archive.crawler.frontier.ELFHashQueueAssignmentPolicy \
    org.archive.crawler.frontier.IPQueueAssignmentPolicy \
    org.archive.crawler.frontier.BucketQueueAssignmentPolicy \
    org.archive.crawler.frontier.SurtAuthorityQueueAssignmentPolicy \
    org.archive.crawler.frontier.TopmostAssignedSurtQueueAssignmentPolicy
org.archive.crawler.frontier.BdbFrontier.level = INFO

按照如上说明，搞定！！
通过以上配置，有时还是会出问题，虽然不知道为什么，但是还是试了很多方法，解决掉了。
(1) 配置下在Setting里的frontier项中的max retries，改成100(有可能是入口过少)
(2) 将url地址改成ip地址(看过log，有时候会有很多404error，那我直接换成ip地址试下，果然好使，哈哈)

不过有的还是不好使唉望有识之士帮忙确定下上面的修改是否能够100%成功！！

查看图片附件

分享到：

网络信息体系结构作业1 | SWT + JFace 入门

2010-10-19 10:08
浏览 3036
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

实现Heritrix的完全代码: 3. **多线程抓取**：利用多线程技术提高抓取效率。 4. **合规性**：遵循Robots协议，尊重网站的访问规则。 5. **可扩展性**：支持插件机制，方便用户添加自定义功能。 6. **强大的社区支持**：拥有活跃的开发者社区...

网络爬虫heritrix: - **并行处理**：利用多线程或多进程技术，实现对网络资源的并行抓取，有效缩短总爬取时间。 - **智能调度**：根据网络状况和服务器负载情况动态调整爬取策略，避免对目标网站造成过大的访问压力。 - **数据压缩**：...

电力系统中基于MATLAB的价格型需求响应与电价弹性矩阵优化: 内容概要：本文详细介绍了如何利用MATLAB进行价格型需求响应的研究，特别是电价弹性矩阵的构建与优化。文章首先解释了电价弹性矩阵的概念及其重要性，接着展示了如何通过MATLAB代码实现弹性矩阵的初始化、负荷变化量的计算以及优化方法。文中还讨论了如何通过非线性约束和目标函数最小化峰谷差，确保用户用电舒适度的同时实现负荷的有效调节。此外，文章提供了具体的代码实例，包括原始负荷曲线与优化后负荷曲线的对比图，以及基于历史数据的参数优化方法。适合人群：从事电力系统优化、能源管理及相关领域的研究人员和技术人员。使用场景及目标：适用于希望深入了解并掌握价格型需求响应机制的专业人士，旨在帮助他们更好地理解和应用电价弹性矩阵，优化电力系统的负荷分布，提高能源利用效率。其他说明：文章强调了实际应用中的注意事项，如弹性矩阵的动态校准和用户价格敏感度的滞后效应，提供了实用的技术细节和实践经验。

一级医院医疗信息管理系统安装调试技术服务合同20240801.pdf: 一级医院医疗信息管理系统安装调试技术服务合同20240801.pdf

表5 文献综述.doc: 表5 文献综述.doc

36W低压输入正激电源，正激变压器设计方法步骤及谐振电感的设计方法，主要讲诉了正激电源变压器测的输入输出参数，按输入的条件设计相关的变压器的参数，同时将输出电感的设计方法一并例出，详细的设计步骤: 36W低压输入正激电源变压器电感设计

基于YOLOv8的深度学习课堂行为检测系统源码(含检测图片和视频): 基于YOLOv8的深度学习课堂行为检测系统源码，软件开发环境python3.9，系统界面开发pyqt5。在使用前安装python3.9，并安装软件所需的依赖库，直接运行MainProgram.py文件即可打开程序。模型训练时，将train,val数据集的绝对路径改为自己项目数据集的绝对路径，运行train.py文件即可开始进行模型训练，内含项目文件说明，以及检测图片和视频。

odbc-oracle zabbix模版原版: odbc_oracle zabbix模版原版

基于纳什谈判理论的风光氢多主体能源系统合作运行方法——综合能源交易与优化模型: 内容概要：本文探讨了利用纳什谈判理论来优化风光氢多主体能源系统的合作运行方法。通过MATLAB代码实现了一个复杂的优化模型，解决了风电、光伏和氢能之间的合作问题。文中详细介绍了ADMM（交替方向乘子法）框架的应用，包括联盟效益最大化和收益分配谈判两个子任务。此外，还涉及了加权残差计算、目标函数构造、可视化工具以及多种博弈模式的对比等功能模块。实验结果显示，合作模式下系统总成本显著降低，氢能利用率大幅提升。适合人群：从事能源系统研究的专业人士、对博弈论及其应用感兴趣的学者和技术人员。使用场景及目标：适用于需要优化多主体能源系统合作运行的场合，如工业园区、电网公司等。主要目标是提高能源利用效率，降低成本，增强系统的灵活性和稳定性。其他说明：代码中包含了丰富的可视化工具，能够帮助研究人员更好地理解和展示谈判过程及结果。同时，提供了多种博弈模式的对比功能，便于进行性能评估和方案选择。

C#与Halcon联合编程实现高效视觉几何定位与测量框架: 内容概要：本文详细介绍了如何利用C#与Halcon联合编程构建高效的视觉几何定位与测量框架。主要内容涵盖模板创建与匹配、圆测量、数据持久化以及图像采集等方面的技术细节。首先，通过创建形状模板并进行匹配，实现了工件的精确定位。接着，针对圆形物体的测量，提出了动态ROI绘制、亚像素边缘提取和稳健圆拟合的方法。此外，还讨论了模板管理和图像采集的最佳实践，确保系统的稳定性和高效性。最后，强调了Halcon对象的内存管理和错误处理机制，提供了实用的优化建议。适合人群：具备一定编程基础，尤其是对C#和Halcon有一定了解的研发人员和技术爱好者。使用场景及目标：适用于工业生产线上的自动化检测设备开发，旨在提高工件定位和尺寸测量的精度与效率。主要目标是帮助开发者掌握C#与Halcon联合编程的具体实现方法，从而构建稳定可靠的视觉检测系统。其他说明：文中提供了大量实战代码片段和调试技巧，有助于读者快速理解和应用相关技术。同时，作者分享了许多实际项目中的经验和教训，使读者能够避开常见陷阱，提升开发效率。

QT6 C++视频播放器实现（基于QGraphicsVideo）: QT视频播放器实现（基于QGraphicsView）

评估管线钢环焊缝质量及其对氢脆的敏感性.pptx: 评估管线钢环焊缝质量及其对氢脆的敏感性.pptx

机器学习（预测模型）：专注于 2024 年出现的漏洞（CVE）信息数据集: 该是一个在 Kaggle 上发布的数据集，专注于 2024 年出现的漏洞（CVE）信息。以下是关于该数据集的详细介绍：该数据集收集了 2024 年记录在案的各类漏洞信息，涵盖了漏洞的利用方式（Exploits）、通用漏洞评分系统（CVSS）评分以及受影响的操作系统（OS）。通过整合这些信息，研究人员和安全专家可以全面了解每个漏洞的潜在威胁、影响范围以及可能的攻击途径。数据主要来源于权威的漏洞信息平台，如美国国家漏洞数据库（NVD）等。这些数据经过整理和筛选后被纳入数据集，确保了信息的准确性和可靠性。数据集特点：全面性：涵盖了多种操作系统（如 Windows、Linux、Android 等）的漏洞信息，反映了不同平台的安全状况。实用性：CVSS 评分提供了漏洞严重程度的量化指标，帮助用户快速评估漏洞的优先级。同时，漏洞利用信息（Exploits）为安全研究人员提供了攻击者可能的攻击手段，有助于提前制定防御策略。时效性：专注于 2024 年的漏洞数据，反映了当前网络安全领域面临的新挑战和新趋势。该数据集可用于多种研究和实践场景：安全研究：研究人员可以利用该数据集分析漏洞的分布规律、攻击趋势以及不同操作系统之间的安全差异，为网络安全防护提供理论支持。机器学习与数据分析：数据集中的结构化信息适合用于机器学习模型的训练，例如预测漏洞的 CVSS 评分、识别潜在的高危漏洞等。企业安全评估：企业安全团队可以参考该数据集中的漏洞信息，结合自身系统的实际情况，进行安全评估和漏洞修复计划的制定。

QML Combobox 自动过滤，输入字符串后自动匹配: 博客主页：https://blog.csdn.net/luoyayun361 QML ComboBox控件，输入关键字后自动过滤包含关键字的列表，方便快速查找列表项

【人工智能领域】人工智能技术发展历程、核心原理及应用指南：涵盖机器学习、深度学习、NLP和计算机视觉的全面介绍: 内容概要：本文全面介绍了人工智能技术的发展历程、核心技术原理、应用方法及其未来趋势。首先阐述了人工智能的定义和核心目标，随后按时间顺序回顾了其从萌芽到爆发的五个发展阶段。接着详细讲解了机器学习、深度学习、自然语言处理和计算机视觉等核心技术原理，并介绍了使用现成AI服务和开发自定义AI模型的应用方法。此外，还展示了智能客服系统、图像分类应用和智能推荐系统的具体实现案例。针对普通用户，提供了使用大模型的指南和提问技巧，强调了隐私保护、信息验证等注意事项。最后展望了多模态AI、可解释AI等未来发展方向，并推荐了相关学习资源。; 适合人群：对人工智能感兴趣的初学者、技术人员以及希望了解AI技术应用的普通大众。; 使用场景及目标：①帮助初学者快速了解AI的基本概念和发展脉络；②为技术人员提供核心技术原理和应用方法的参考；③指导普通用户如何有效地使用大模型进行日常查询和任务处理。; 其他说明：本文不仅涵盖了AI技术的基础知识，还提供了丰富的实际应用案例和实用技巧，旨在帮助读者全面理解人工智能技术，并能在实际工作中加以应用。同时提醒读者关注AI伦理和版权问题，确保安全合法地使用AI工具。

本学习由 Matrix 工作室制作并开发，包括算法与数据结构的学习路线和各种题解: 本学习由 Matrix 工作室制作并开发，包括算法与数据结构的学习路线和各种题解。

基于智慧图书馆基础业务流程Axure11高保真原型设计: 本项目致力于构建基于微服务架构的智慧图书馆管理平台，重点突破多校区图书馆异构系统间的数据壁垒。通过建立统一数据治理规范、部署智能分析模块、重构业务流程引擎，系统性实现以下建设目标：构建跨馆业务数据的标准化整合通道，实施容器化部署的弹性资源管理体系，开发具备机器学习能力的业务辅助决策系统，打造可量化评估的管理效能提升模型，最终形成支持PB级数据处理的分布式存储体系与全维度数据资产图谱。

mysql中慢sql分析: 根据processlist查询出慢sql 1.修改配置文件中的mysql链接 2.目前是15秒执行一次获取执行时间在5秒上的sql，可以在配置中修改 3.执行后查出的慢sql会记录到log文件夹中以日期命名的txt文件中，可自行查验

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论