php采集安装教程(Python数据采集流程)

  本篇文章给大家带来的内容是关于php中常用的采集函数的总结(附代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。  这几天关注了一下PHP的采集程序,才发现用PHP采集内容是这么方便,

  本篇文章给大家带来的内容是关于php中常用的采集函数的总结(附代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。

  「php」php中常用的采集函数的总结,值得收藏!(附代码)「php」php中常用的采集函数的总结,值得收藏!(附代码)这几天关注了一下PHP的采集程序,才发现用PHP采集内容是这么方便,把经常用到的采集函数在这里总结一下,方便以后使用!

  获取所有链接内容和地址

  function getAllURL($code){

  preg_match_all(‘/”‘ ]+)[“|’]?s*[^>]*>([^>]+)/i’,$code,$arr);

  return array(‘name’=>$arr[2],’url’=>$arr[1]);

  }

  获取所有的图片地址

  function getImgSrc($code){

  $reg = “/]*src=”(http://(.+)/(.+).(jpg|gif|bmp|bnp|png))”/isU”;

  preg_match_all($reg, $code, $img_array, PREG_PATTERN_ORDER);

  return $img_array[1];

  }

  当前的脚本网址

  function getSelfURL(){

  if(!empty($_SERVER[“REQUEST_URI”])){

  $scriptName = $_SERVER[“REQUEST_URI”];

  $nowurl = $scriptName;

  }else{

  $scriptName = $_SERVER[“PHP_SELF”];

  if(empty($_SERVER[“QUERY_STRING”])) $nowurl = $scriptName;

  else $nowurl = $scriptName.”?”.$_SERVER[“QUERY_STRING”];

  }

  return $nowurl;

  }

  把全角数字转为半角数字

  function getAlabNum($fnum){

  $nums = array(“0”,”1”,”2”,”3”,”4”,”5”,”6”,”7”,”8”,”9”);

  $fnums = “0123456789”;

  for($i=0;$i”,”>”,$txt);

  $txt = preg_replace(“/[rn]{1,}/isU”,”rn”,$txt);

  return $txt;

  }

  清除HTML标记

  function clearHtml($str){

  $str = str_replace(‘’,’>’,$str);

  return $str;

  }

  相对路径转化成绝对路径

  function relative2Absolute($content, $feed_url) {

  preg_match(‘/(http|https|ftp):///’, $feed_url, $protocol);

  $server_url = preg_replace(“/(http|https|ftp|news):///”, “”, $feed_url);

  $server_url = preg_replace(“//.*/”, “”, $server_url);

  if ($server_url == ”) {

  return $content;

  }

  if (isset($protocol[0])) {

  $new_content = preg_replace(‘/href=”//’, ‘href=”‘.$protocol[0].$server_url.’/’, $content);

  $new_content = preg_replace(‘/src=”//’, ‘src=”‘.$protocol[0].$server_url.’/’, $new_content);

  } else {

  $new_content = $content;

  }

  return $new_content;

  }

  获取指定标记中的内容

  function getTagData($str, $start, $end){

  if ( $start == ” || $end == ” ){

  return;

  }

  $str = explode($start, $str);

  $str = explode($end, $str[1]);

  return $str[0];

  }

  「php」php中常用的采集函数的总结,值得收藏!(附代码)「php」php中常用的采集函数的总结,值得收藏!(附代码)HTML表格的每行转为CSV格式数组

  function getTrArray($table) {

  $table = preg_replace(“‘]*?>’si”,'”‘,$table);

  $table = str_replace(“”,'”,’,$table);

  $table = str_replace(“”,”{tr}”,$table);

  //去掉 HTML 标记

  $table = preg_replace(“‘’si”,””,$table);

  //去掉空白字符

  $table = preg_replace(“‘([rn])[s]+'”,””,$table);

  $table = str_replace(” “,””,$table);

  $table = str_replace(” “,””,$table);

  $table = explode(“,{tr}”,$table);

  array_pop($table);

  return $table;

  }

  将HTML表格的每行每列转为数组,采集表格数据

  function getTdArray($table) {

  $table = preg_replace(“‘]*?>’si”,””,$table);

  $table = preg_replace(“‘]*?>’si”,””,$table);

  $table = preg_replace(“‘]*?>’si”,””,$table);

  $table = str_replace(“”,”{tr}”,$table);

  $table = str_replace(“”,”{td}”,$table);

  //去掉 HTML 标记

  $table = preg_replace(“‘’si”,””,$table);

  //去掉空白字符

  $table = preg_replace(“‘([rn])[s]+'”,””,$table);

  $table = str_replace(” “,””,$table);

  $table = str_replace(” “,””,$table);

  $table = explode(‘{tr}’, $table);

  array_pop($table);

  foreach ($table as $key=>$tr) {

  $td = explode(‘{td}’, $tr);

  array_pop($td);

  $td_array[] = $td;

  }

  return $td_array;

  }

  返回字符串中的所有单词 $distinct=true 去除重复

  function splitEnStr($str,$distinct=true) {

  preg_match_all(‘/([a-zA-Z]+)/’,$str,$match);

  if ($distinct == true) {

  $match[1] = array_unique($match[1]);

  }

  sort($match[1]);

  return $match[1];

  }

原创文章,作者:发布专员,如若转载,请注明出处:https://ziliaobaba.com/13614.html

(0)
发布专员发布专员
上一篇 2022年1月9日 22:20
下一篇 2022年1月9日 23:07

相关推荐

  • 个人博客怎么建立?如何创建博客

    创建博客很容易——但创建一个成功的博客说起来容易做起来难。在本文中,我们将分享如何将您对博客的热情转变为拥有大量追随者的成功、可获利的网站! 1. 确定你博客的目的 互联网上有数百万活跃的博客,重要的是要创…

    2022年10月12日
  • 天目山在哪里?天目山的由来简介

    天目山景区 素有“大树华盖闻九州”之誉的天目山,是世界生物圈保护区网络成员,国家级自然保护区,主峰仙人顶海拔1506米。 天目山动植物资源丰富,生长着1万2千年的世界银杏之祖,中国最大的古柳杉群落,也是我国野生…

    2022年11月30日
  • 绿色软件是什么意思

    绿色软件:让电脑更安全、更环保 一、什么是绿色软件 绿色软件是指能够提高电脑安全性、提高电脑环保性的软件。它可以帮助用户更有效地管理电脑,节省电脑资源,提高电脑性能,减少电脑病毒的传播,减少电脑资源的浪…

    投稿 2023年4月18日
  • 没有音频设备怎么解决?音频设备驱动

    如果电脑没有音频设备,那么就意味着电脑没任何声音输出,也就没办法听音乐和看电影了,让人感到十分烦恼。引起电脑没有音频设备的原因有很多种,很多时候是由于声卡驱动的问题,下面给大家分享电脑没有音频设备的处…

    2022年11月13日
  • 投影仪支架怎么用?投影仪支架

    上图是一种常见的吊架支架,吊杆是可以伸缩的,其他还有许多样式,在构造上也是以此为基础而延伸的,通常在材质和外观上有所区别。 细节   底部连接投影仪的位置,是可以前后左右进行角度调节的,很方便。 &nbs…

    2022年11月13日
  • 清明节的由来和风俗(清明节最简短的来历)

    是节气也是节日 清明节,又称踏青节、祭祖节等,节期在仲春与暮春之交。 关于它的由来,有说法称,清明节源自上古时代的祖先信仰与春祭礼俗,兼具自然与人文两大内涵,既是自然节气点,也是传统节日。 有观点称,扫…

    投稿 2022年11月15日
  • 双卡双待单通和双通的区别

    双卡双待单通和双通的区别 一、双卡双待单通 双卡双待单通是指手机支持两张SIM卡,但只能同时使用一张SIM卡,也就是说,只能使用一张SIM卡进行通话,另一张SIM卡只能用于数据服务。 二、双通 双通指的是手机支持两张…

    投稿 2023年3月19日
  • 滴水观音花怎么养?滴水观音怎样养

    现在人都喜欢在家里养上几盆绿植,一方面清新养眼,另一方面也可以起到净化空气的作用。像我们平时经常见到的绿萝、吊兰、龟背竹都是不错的选择。 但今天花花给大家介绍的这种绿植一直以来都备受争议,它的叶片不仅…

    2022年1月1日
  • 最新粤语歌曲(在线听粤语歌曲)

    听众点歌——《天网》 《天网》是由张美贤作词,张家诚作曲,周锡汉、黄兆铭编曲,周柏豪演唱的粤语歌曲,也是TVB剧集《使徒行者2》的主题曲。 周柏豪首度参与重头剧演出,他在《使徒行者2》中饰演的乐少锋,给观众留…

    2022年10月7日
  • 影响网速的原因?网速跟哪些因素有关

    相信很多人都会遇到过这种情况,在安装了专线或者宽带以后,有时会觉得网速慢,技术宅还会登录专业网站测网速。但即使是运营商从业人员,也很难具体说清楚拖慢网速究竟有什么原因。本文就从四个拖慢网速的主要因素,…

    2022年11月13日