傅令江的光影色彩世界
留住记忆的点滴
  • 首页
  • 文学
    • 诗词鉴赏
    • 美文共读
    • 原创
  • 编程
    • php
    • asp
    • .net
    • VB
    • C/C++
    • 易语言
    • js
    • 其他
    • 逆向
  • 运维
    • windows
    • linux
  • 光影色彩
    • 电影
    • 音乐
  • 科技
    • 互联网
    • 手机
  • 生活
    • 情感
  • 微语
11月122014

再发一个php爬虫程序

作者:令狐江   发布:2014-11-12 15:28   分类:php   阅读:3243次   评论:0条  
<?php
#加载页面
function curl_get($url){
        $ch=curl_init();
        curl_setopt($ch,CURLOPT_URL,$url);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
        curl_setopt($ch,CURLOPT_HEADER,1);
        $result=curl_exec($ch);
        $code=curl_getinfo($ch,CURLINFO_HTTP_CODE);
 if($code!='404' && $result){
  return $result;
 }
        curl_close($ch);
}
#获取页面url链接
function get_page_urls($spider_page_result,$base_url){
  $get_url_result=preg_match_all("/<[a|A].*?href=[\'\"]{0,1}([^>\'\"\ ]*).*?>/",$spider_page_result,$out);
  if($get_url_result){
   return $out[1];
  }else{
   return;
  }
}
#相对路径转绝对路径
function xdtojd($base_url,$url_list){
 if(is_array($url_list)){
  foreach($url_list as $url_item){
   if(preg_match("/^(http:\/\/|https:\/\/|javascript:)/",$url_item)){
    $result_url_list[]=$url_item;
   }else {
    if(preg_match("/^\//",$url_item)){
     $real_url = $base_url.$url_item;
    }else{
     $real_url = $base_url."/".$url_item;
    }
    #$real_url = 'http://www.sumpay.cn/'.$url_item;  
                  $result_url_list[] = $real_url;  
   }
  }
  return $result_url_list;
 }else{
  return;
 }
}
#删除其他站点url
function other_site_url_del($jd_url_list,$url_base){
 
 if(is_array($jd_url_list)){
  foreach($jd_url_list as $all_url){
   echo $all_url;
   if(strpos($all_url,$url_base)===0){
    $all_url_list[]=$all_url;
   }
 
  }
  return $all_url_list;
 }else{
  return;
 }
}
#删除相同URL
function url_same_del($array_url){
 
 if(is_array($array_url)){
  $insert_url=array();
  $pizza=file_get_contents("/tmp/url.txt");
                if($pizza){
   $pizza=explode("\r\n",$pizza);
   foreach($array_url as $array_value_url){
    if(!in_array($array_value_url,$pizza)){
     $insert_url[]=$array_value_url; 
    }
   }
   if($insert_url){
                                foreach($insert_url as $key => $insert_url_value){
                                        #这里只做了参数相同去重处理
     $update_insert_url=preg_replace('/=[^&]*/','=leesec',$insert_url_value);
                                        foreach($pizza as $pizza_value){
                                         $update_pizza_value=preg_replace('/=[^&]*/','=leesec',$pizza_value);
                                                if($update_insert_url==$update_pizza_value){
                                                 unset($insert_url[$key]);
                                                        continue;
                                                }
                                        }
    }
   }
  
  }else{
   $insert_url=array();
   $insert_new_url=array();
   $insert_url=$array_url;
   foreach($insert_url as $insert_url_value){
    $update_insert_url=preg_replace('/=[^&]*/','=leesec',$insert_url_value);
    $insert_new_url[]=$update_insert_url;   
   }
   $insert_new_url=array_unique($insert_new_url);
   foreach($insert_new_url as $key => $insert_new_url_val){
    $insert_url_bf[]=$insert_url[$key];
   } 
   $insert_url=$insert_url_bf;
  }
  return $insert_url;
 }else{
  return; 
 }
}
$current_url=$argv[1];
$fp_puts = fopen("/tmp/url.txt","ab");//记录url列表  
$fp_gets = fopen("/tmp/url.txt","r");//保存url列表  
$url_base_url=parse_url($current_url);
if($url_base_url['scheme']==""){
 $url_base="http://".$url_base_url['host'];
}else{
 $url_base=$url_base_url['scheme']."://".$url_base_url['host'];
}
do{
 $spider_page_result=curl_get($current_url);
 #var_dump($spider_page_result);
 $url_list=get_page_urls($spider_page_result,$url_base);
 #var_dump($url_list);
 if(!$url_list){
  continue;
 }
 $jd_url_list=xdtojd($url_base,$url_list);
 #var_dump($jd_url_list);
 $result_url_arr=other_site_url_del($jd_url_list,$url_base);
 var_dump($result_url_arr);
 $result_url_arr=url_same_del($result_url_arr); 
 #var_dump($result_url_arr); 
 if(is_array($result_url_arr)){  
     $result_url_arr=array_unique($result_url_arr);
            foreach($result_url_arr as $new_url) {  
                fputs($fp_puts,$new_url."\r\n");  
            }
 }  
 
}
while ($current_url = fgets($fp_gets,1024));//不断获得url  
preg_match_all("/<a[^>]+href=[\"']([^\"']+)[\"'][^>]+>/",$spider_page_result,$out);
# echo a href
#var_dump($out[1]);
?>



本文固定链接: https://www.fulingjiang.cn/php/87.html

blogger
该日志由 令狐江 于2014-11-12 15:28 Wednesday发表在 php 分类下。
版权所有:《傅令江的光影色彩世界》 → 《再发一个php爬虫程序》;
除特别标注,本博客所有文章均为原创. 互联分享,尊重版权,转载请以链接形式标明本文地址;
本文标签:
上一篇::mysql 5.6+ yum 安装
下一篇:一个轻量级php家用爬虫

热门文章

  • 兄弟二周年祭

相关文章

  • 简单几步为你的Typecho开启Redis缓存
  • php parsekit,安装php的parsekit扩展查看opcode
  • php根据key获取子目录
  • PHP文本操作类,这个是以前一个文本论坛的,更改数据的时候有点兼容问题,都加上\n
  • 适用于最新版6.2版本
取消回复

发表评论

亲,头像对么?

提交中,请稍候……


木有头像就木JJ啦!还木有头像吗?点这里申请属于你的个性Gravatar头像吧!


  • 日历

  • 存档

    • 2024年10月(1)
    • 2023年2月(1)
    • 2022年11月(1)
    • 2022年10月(10)
    • 2022年9月(13)
    • 2022年8月(2)
    • 2022年7月(14)
    • 2022年6月(2)
    • 2022年5月(8)
    • 2022年4月(7)
    • 2022年3月(13)
    • 2022年2月(2)
    • 2022年1月(9)
    • 2021年12月(2)
    • 2021年11月(4)
    • 2021年10月(2)
    • 2021年9月(6)
    • 2021年7月(4)
    • 2021年6月(3)
    • 2021年5月(3)
    • 2021年4月(11)
    • 2021年3月(13)
    • 2021年2月(2)
    • 2021年1月(1)
    • 2020年12月(1)
    • 2020年4月(5)
    • 2019年9月(1)
    • 2019年8月(1)
    • 2019年5月(3)
    • 2018年3月(1)
    • 2017年10月(1)
    • 2016年7月(1)
    • 2016年4月(1)
    • 2015年12月(1)
    • 2015年11月(3)
    • 2015年9月(1)
    • 2015年8月(10)
    • 2015年7月(1)
    • 2015年6月(1)
    • 2015年4月(1)
    • 2015年3月(3)
    • 2015年2月(8)
    • 2015年1月(4)
    • 2014年12月(1)
    • 2014年11月(27)
    • 2014年10月(13)
    • 2014年9月(14)
    • 2014年8月(26)
    • 2014年7月(21)
  • 最新评论

    • 令狐江:
      喜欢这首歌是因为可以引起共鸣!
  • 链接

    • 演讲稿网
    • Recollect
    • 演讲稿
    • 祁阳人生活网
    • 我爱演讲稿网
  • 搜索

  • 标签

      函数 自定义方法 SEO 分页 分页函数 分页方法 nginx重新的一些规则
  • 分类

    • 文学(0)
    • 编程(0)
    • 运维(0)
    • 光影色彩(0)
    • 科技(0)
    • 生活(0)
    • 诗词鉴赏(3)
    • 美文共读(1)
    • 原创(10)
    • php(111)
    • asp(1)
    • .net(0)
    • VB(0)
    • C/C++(0)
    • 易语言(0)
    • js(8)
    • 其他(9)
    • 逆向(2)
    • windows(11)
    • linux(121)
    • 电影(0)
    • 音乐(1)
    • 互联网(4)
    • 手机(0)
    • 情感(2)
  • 最新文章热门文章随机文章

    • 兄弟二周年祭
    • openai给的ionCube 解密代码,应该是老版本可以这样
    • WordPress – 5秒盾防CC(PHP通用代码)
    • 我高中最好的朋友今天猝死了-伤心得不行
    • Linux系统中 systemd-journaldCPU占用异常的解决方法
    • SVN Skipped 'xxx' -- Node remains in conflict 错误的解决办法
    • 解决Linux读写nfs共享盘速度慢的问题
    • php 获取302跳转后的地址
    • 让vsftp显示隐藏文件的办法,比如显示 .htaccess
    • 添加自签名https证书到centos系统信任的问题
    • windows自启动,把写好的启动程序放进去vbs,bat
    • PHP文本操作类,这个是以前一个文本论坛的,更改数据的时候有点兼容问题,都加上\n
    • nginx和apache关闭自身的日志记录
    • 定时删除日志文件的sh,简单高效
    • windows中使用winsw进行服务管理开启启动服务
Copyright © 2001-2025 傅令江的光影色彩世界. Powered by www.fulingjiang.cn ICP备案:京ICP备14015190号-5