php采集安装教程(Python数据采集流程)

  本篇文章给大家带来的内容是关于php中常用的采集函数的总结(附代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。  这几天关注了一下PHP的采集程序,才发现用PHP采集内容是这么方便,

  本篇文章给大家带来的内容是关于php中常用的采集函数的总结(附代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。

  「php」php中常用的采集函数的总结,值得收藏!(附代码)「php」php中常用的采集函数的总结,值得收藏!(附代码)这几天关注了一下PHP的采集程序,才发现用PHP采集内容是这么方便,把经常用到的采集函数在这里总结一下,方便以后使用!

  获取所有链接内容和地址

  function getAllURL($code){

  preg_match_all(‘/”‘ ]+)[“|’]?s*[^>]*>([^>]+)/i’,$code,$arr);

  return array(‘name’=>$arr[2],’url’=>$arr[1]);

  }

  获取所有的图片地址

  function getImgSrc($code){

  $reg = “/]*src=”(http://(.+)/(.+).(jpg|gif|bmp|bnp|png))”/isU”;

  preg_match_all($reg, $code, $img_array, PREG_PATTERN_ORDER);

  return $img_array[1];

  }

  当前的脚本网址

  function getSelfURL(){

  if(!empty($_SERVER[“REQUEST_URI”])){

  $scriptName = $_SERVER[“REQUEST_URI”];

  $nowurl = $scriptName;

  }else{

  $scriptName = $_SERVER[“PHP_SELF”];

  if(empty($_SERVER[“QUERY_STRING”])) $nowurl = $scriptName;

  else $nowurl = $scriptName.”?”.$_SERVER[“QUERY_STRING”];

  }

  return $nowurl;

  }

  把全角数字转为半角数字

  function getAlabNum($fnum){

  $nums = array(“0”,”1”,”2”,”3”,”4”,”5”,”6”,”7”,”8”,”9”);

  $fnums = “0123456789”;

  for($i=0;$i”,”>”,$txt);

  $txt = preg_replace(“/[rn]{1,}/isU”,”rn”,$txt);

  return $txt;

  }

  清除HTML标记

  function clearHtml($str){

  $str = str_replace(‘’,’>’,$str);

  return $str;

  }

  相对路径转化成绝对路径

  function relative2Absolute($content, $feed_url) {

  preg_match(‘/(http|https|ftp):///’, $feed_url, $protocol);

  $server_url = preg_replace(“/(http|https|ftp|news):///”, “”, $feed_url);

  $server_url = preg_replace(“//.*/”, “”, $server_url);

  if ($server_url == ”) {

  return $content;

  }

  if (isset($protocol[0])) {

  $new_content = preg_replace(‘/href=”//’, ‘href=”‘.$protocol[0].$server_url.’/’, $content);

  $new_content = preg_replace(‘/src=”//’, ‘src=”‘.$protocol[0].$server_url.’/’, $new_content);

  } else {

  $new_content = $content;

  }

  return $new_content;

  }

  获取指定标记中的内容

  function getTagData($str, $start, $end){

  if ( $start == ” || $end == ” ){

  return;

  }

  $str = explode($start, $str);

  $str = explode($end, $str[1]);

  return $str[0];

  }

  「php」php中常用的采集函数的总结,值得收藏!(附代码)「php」php中常用的采集函数的总结,值得收藏!(附代码)HTML表格的每行转为CSV格式数组

  function getTrArray($table) {

  $table = preg_replace(“‘]*?>’si”,’”‘,$table);

  $table = str_replace(“”,’”,’,$table);

  $table = str_replace(“”,”{tr}”,$table);

  //去掉 HTML 标记

  $table = preg_replace(“‘’si”,””,$table);

  //去掉空白字符

  $table = preg_replace(“‘([rn])[s]+’”,””,$table);

  $table = str_replace(” “,””,$table);

  $table = str_replace(” “,””,$table);

  $table = explode(“,{tr}”,$table);

  array_pop($table);

  return $table;

  }

  将HTML表格的每行每列转为数组,采集表格数据

  function getTdArray($table) {

  $table = preg_replace(“‘]*?>’si”,””,$table);

  $table = preg_replace(“‘]*?>’si”,””,$table);

  $table = preg_replace(“‘]*?>’si”,””,$table);

  $table = str_replace(“”,”{tr}”,$table);

  $table = str_replace(“”,”{td}”,$table);

  //去掉 HTML 标记

  $table = preg_replace(“‘’si”,””,$table);

  //去掉空白字符

  $table = preg_replace(“‘([rn])[s]+’”,””,$table);

  $table = str_replace(” “,””,$table);

  $table = str_replace(” “,””,$table);

  $table = explode(‘{tr}’, $table);

  array_pop($table);

  foreach ($table as $key=>$tr) {

  $td = explode(‘{td}’, $tr);

  array_pop($td);

  $td_array[] = $td;

  }

  return $td_array;

  }

  返回字符串中的所有单词 $distinct=true 去除重复

  function splitEnStr($str,$distinct=true) {

  preg_match_all(‘/([a-zA-Z]+)/’,$str,$match);

  if ($distinct == true) {

  $match[1] = array_unique($match[1]);

  }

  sort($match[1]);

  return $match[1];

  }

原创文章,作者:发布专员,如若转载,请注明出处:https://ziliaobaba.com/13614.html

(0)
发布专员发布专员
上一篇 2022年1月9日 22:20
下一篇 2022年1月9日 23:07

相关推荐

  • 清明节的由来和风俗(汉族清明节的风俗简介)

    清明节(别称:踏青节,英文名:Tomb-Sweeping Day)是中国最重要的祭祀节日,交节时间在公历4月5日前后。[1]2国人自古就有礼敬祖先、慎终追远的礼俗观念,因此在清明时…

    2022年11月18日
  • 天门山在哪里

    天门山,位于湖南省张家界市,距市区仅8公里,海拔1518.6米,是张家界海拔最高山,也是张家界的文化圣地,被尊为“武陵之魂”,有“湘西第一神山”的美誉。是国家5A级旅游区,更有着“…

    2023年2月16日
  • 关于春秋战国时期的电视剧

    《春秋战国时期》电视剧 一、剧情介绍 《春秋战国时期》是一部以春秋战国时期为背景的古装电视剧,讲述了那个时代的人们在政治斗争、爱情纠葛、谋略策划中所展现出的英雄风采。剧中的主要人物…

    投稿 2023年7月8日
  • 意大利面怎么做简单又好吃?正宗意大利面做法

    做个黄油芝士蒜香意面吧 用料 意面 100克 芝士粉 适量 蒜头 1个 黄油 适量 初榨橄榄油 适量 做法步骤 1、水烧开放盐,比例按1升水10克盐。 2、把意面放入开水里,煮上8…

    2022年12月12日
  • 圣导师怎么加点?圣导师大师天赋加点图

    《奇迹MU:觉醒》作为一款经典的魔幻手游,原先的职业是由剑士、魔法师和弓箭手三大职业构成,营造出最经典的职业铁三角,每个职业的特点与定位都十分鲜明,各有所长。如今,《奇迹MU:觉醒…

    投稿 2022年10月22日
  • 乐山美食(乐山美食推荐)

    这是我第一次来到四川乐山,美食胜过成都的一座城,据说很多成都吃货都会来这里觅食。 翘脚牛肉,甜皮鸭,豆腐鱼,钵钵鸡算是乐山美食的代表。 这里的餐厅名称都差不多,黄七孃、潘六孃、冯四…

    2022年10月3日
  • word页脚怎么改一个就全部变了

    页脚:本文由笔者原创,版权归笔者所有,未经授权,不得转载近年来,社会发展的迅猛,科技的进步,使得我们的生活发生了翻天覆地的变化。从过去的拥有简单

    投稿 2023年3月9日
  • 微信加好友限制?微信添加好友过于频繁被限制

    很多朋友想要做微商或打造私域流量圈,需要使用微信添加大量的好友,但因为加好友过于频繁,被系统识别之后做了限制,想要解除但又不知道该如何操作,本期文章就说说遇到这种情况之后该如何做。…

    2021年11月7日
  • 加油用英语怎么说?加油英语口语表达

    1. 体育运动时观众喊的口号,英语里比较常见的是Go XXX! Come on XXX! 比方说给中国队加油 Go China! Come on China! 也可以说Let&#8…

    2022年11月28日
  • 文件太大微信无法传送怎么办(微信传200m以上的压缩包三个妙招)

    微信大于200M文件不能发送?这3个妙招别错过,学会就是涨知识 微信是我们日常使用得很频繁的工具,生活、娱乐、工作等方方面面都有涉及。 办公中,经常需要使用发送大于200M的文件,…

    2021年11月2日