文章总结: 本文分享了在SRC资产管理系统开发中实现网站去重的技术方案。核心思路是通过提取网站响应头的关键键名、特定字段值、状态码及网页标题,结合域名或IP组合生成MD5哈希值进行唯一性校验。文章将资产分为域名、IP及组合网站三类,针对不同类型设计差异化哈希生成规则以高效去重,并提及利用Host碰撞发现隐藏资产,最后附带平台推广信息。 综合评分: 78 文章分类: 安全工具,SRC活动,安全开发,实战经验
收藏 | 判断海量网站是否重复的技术方案(附代码思路)
原创
xazlsec xazlsec
信安之路
2026年3月12日 11:16 山西
今天来分享一下在开发 SRC 资产管理系统时,如何给网站去重,从而降低测试范围提高测试效率的,在此之前还是要分享一下当前有奖励活动的 SRC 有哪些:
回到正题,我的去重方法其实很简单,在获取完网站的基本信息包括 header、body 后,提取网站固定字段后,进行 md5 哈希计算,以此作为网站的唯一性校验。
以 src 平台作为案例,获取到的 header 信息为:
Content-Length: 6567Accept-Ranges: bytesConnection: keep-aliveContent-Type: text/html; charset=utf-8Cross-Origin-Opener-Policy: same-originDate: Thu, 12 Mar 2026 02:54:38 GMTKeep-Alive: timeout=4Proxy-Connection: keep-aliveReferrer-Policy: same-originServer: openrestyVary: CookieVia: CHN-SXlinfen-CUPN1-CACHE13[104],CHN-SXlinfen-CUPN1-CACHE34[100,TCP_MISS,102],CHN-HEshijiazhuang-GLOBAL1-CACHE62[56],CHN-HEshijiazhuang-GLOBAL1-CACHE68[46,TCP_MISS,49]X-Ccdn-Cachettl: 0X-Ccdn-Origin-Time: 46X-Ccdn-Req-Id-46b1: 1395fcb56c6cdb9350d467a348895142X-Content-Type-Options: nosniffX-Frame-Options: DENYX-Hcs-Proxy-Type: 0
从 header 中提取 header key,也就是以冒号分割,前面的那一列,比如:
Content-LengthAccept-Ranges….
然后提取几个固定的字段内容,比如 Server 的内容 openresty、Content-Type 的内容 text/html; charset=utf-8,还有网站的响应状态码。
然后从 body 内容中提取出标题,比如:开启 SRC 漏洞赏金之旅,除此之外还需要根据不同的网站类型,提取域名或者 IP 作为关键词。
在 SRC 系统上,针对网站资产划分为三类:域名网站、IP 网站以及组合网站。
域名网站就是通过域名直接访问的网站,IP 网站就是通过 IP+端口组合起来访问的网站,而组合网站就是通过 Host 碰撞,通过 IP+80 或者 IP+443 然后变换请求 header 中的 Host 字段枚举出来的网站(这部分也是咱们平台的特色功能)。
根据不同的网站类型,提取域名或者 IP,当网站类型是域名网站和组合网站时,通过提取主域名+headerkey+关键字段内容+标题来获取哈希值,如图:
而 IP+端口的 IP 网站则通过 IP+headerkey+关键字段内容+标题来获取哈希值,如图:
headerkey 的获取,就是提取相应 header 中的所有 key,来组成一个字符串,最终根据不同的网站类型结合哈希值来确保没有重复的网站,这样的效率相对较高,但是也可能会存在漏报和误报的情况。
最后推荐大家重点关注下组合网站的资产,可能会发现一些隐藏在内网的资产以及 CDN、云 WAF 背后的真实网站,说不定一下就能发现隐藏漏洞,最后欢迎注册体验:
平台地址:http://src.xazlsec.com(注册码:XAZLSEC)
如果你想体验一下非 10 积分的 SRC 项目,可以选择小积分充值,10 积分等于 10 元,联系我即可,新加入知识星球、新续费知识星球以及当前知识星球有效期内的同学,可以联系我获得 100 积分赠与。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:信安之路 xazlsec xazlsec《收藏 | 判断海量网站是否重复的技术方案(附代码思路)》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论