php采集安装教程(Python数据采集流程)

  本篇文章给大家带来的内容是关于php中常用的采集函数的总结(附代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。  这几天关注了一下PHP的采集程序,才发现用PHP采集内容是这么方便,

  本篇文章给大家带来的内容是关于php中常用的采集函数的总结(附代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。

  「php」php中常用的采集函数的总结,值得收藏!(附代码)「php」php中常用的采集函数的总结,值得收藏!(附代码)这几天关注了一下PHP的采集程序,才发现用PHP采集内容是这么方便,把经常用到的采集函数在这里总结一下,方便以后使用!

  获取所有链接内容和地址

  function getAllURL($code){

  preg_match_all(‘/”‘ ]+)[“|’]?s*[^>]*>([^>]+)/i’,$code,$arr);

  return array(‘name’=>$arr[2],’url’=>$arr[1]);

  }

  获取所有的图片地址

  function getImgSrc($code){

  $reg = “/]*src=”(http://(.+)/(.+).(jpg|gif|bmp|bnp|png))”/isU”;

  preg_match_all($reg, $code, $img_array, PREG_PATTERN_ORDER);

  return $img_array[1];

  }

  当前的脚本网址

  function getSelfURL(){

  if(!empty($_SERVER[“REQUEST_URI”])){

  $scriptName = $_SERVER[“REQUEST_URI”];

  $nowurl = $scriptName;

  }else{

  $scriptName = $_SERVER[“PHP_SELF”];

  if(empty($_SERVER[“QUERY_STRING”])) $nowurl = $scriptName;

  else $nowurl = $scriptName.”?”.$_SERVER[“QUERY_STRING”];

  }

  return $nowurl;

  }

  把全角数字转为半角数字

  function getAlabNum($fnum){

  $nums = array(“0”,”1”,”2”,”3”,”4”,”5”,”6”,”7”,”8”,”9”);

  $fnums = “0123456789”;

  for($i=0;$i”,”>”,$txt);

  $txt = preg_replace(“/[rn]{1,}/isU”,”rn”,$txt);

  return $txt;

  }

  清除HTML标记

  function clearHtml($str){

  $str = str_replace(‘’,’>’,$str);

  return $str;

  }

  相对路径转化成绝对路径

  function relative2Absolute($content, $feed_url) {

  preg_match(‘/(http|https|ftp):///’, $feed_url, $protocol);

  $server_url = preg_replace(“/(http|https|ftp|news):///”, “”, $feed_url);

  $server_url = preg_replace(“//.*/”, “”, $server_url);

  if ($server_url == ”) {

  return $content;

  }

  if (isset($protocol[0])) {

  $new_content = preg_replace(‘/href=”//’, ‘href=”‘.$protocol[0].$server_url.’/’, $content);

  $new_content = preg_replace(‘/src=”//’, ‘src=”‘.$protocol[0].$server_url.’/’, $new_content);

  } else {

  $new_content = $content;

  }

  return $new_content;

  }

  获取指定标记中的内容

  function getTagData($str, $start, $end){

  if ( $start == ” || $end == ” ){

  return;

  }

  $str = explode($start, $str);

  $str = explode($end, $str[1]);

  return $str[0];

  }

  「php」php中常用的采集函数的总结,值得收藏!(附代码)「php」php中常用的采集函数的总结,值得收藏!(附代码)HTML表格的每行转为CSV格式数组

  function getTrArray($table) {

  $table = preg_replace(“‘]*?>’si”,'”‘,$table);

  $table = str_replace(“”,'”,’,$table);

  $table = str_replace(“”,”{tr}”,$table);

  //去掉 HTML 标记

  $table = preg_replace(“‘’si”,””,$table);

  //去掉空白字符

  $table = preg_replace(“‘([rn])[s]+'”,””,$table);

  $table = str_replace(” “,””,$table);

  $table = str_replace(” “,””,$table);

  $table = explode(“,{tr}”,$table);

  array_pop($table);

  return $table;

  }

  将HTML表格的每行每列转为数组,采集表格数据

  function getTdArray($table) {

  $table = preg_replace(“‘]*?>’si”,””,$table);

  $table = preg_replace(“‘]*?>’si”,””,$table);

  $table = preg_replace(“‘]*?>’si”,””,$table);

  $table = str_replace(“”,”{tr}”,$table);

  $table = str_replace(“”,”{td}”,$table);

  //去掉 HTML 标记

  $table = preg_replace(“‘’si”,””,$table);

  //去掉空白字符

  $table = preg_replace(“‘([rn])[s]+'”,””,$table);

  $table = str_replace(” “,””,$table);

  $table = str_replace(” “,””,$table);

  $table = explode(‘{tr}’, $table);

  array_pop($table);

  foreach ($table as $key=>$tr) {

  $td = explode(‘{td}’, $tr);

  array_pop($td);

  $td_array[] = $td;

  }

  return $td_array;

  }

  返回字符串中的所有单词 $distinct=true 去除重复

  function splitEnStr($str,$distinct=true) {

  preg_match_all(‘/([a-zA-Z]+)/’,$str,$match);

  if ($distinct == true) {

  $match[1] = array_unique($match[1]);

  }

  sort($match[1]);

  return $match[1];

  }

原创文章,作者:发布专员,如若转载,请注明出处:https://ziliaobaba.com/13614.html

(0)
发布专员发布专员
上一篇 2022年1月9日 22:20
下一篇 2022年1月9日 23:07

相关推荐

  • 世界10大特种部队(全球最顶级的特种部队)

    第十个 美国海豹突击队 这支部队最让人佩服的地方,就是拿到了本L登的人头。海豹突击队于1962年成立,前身是海军水下爆破队。目前人数已经发展为将近3000人左右。 这个部队是美国应对战争和突发事件的杀手锏。被认为…

    2022年10月11日
  • 世界十大毒王第一名(世界十大毒王)

    如果要评选世界上最毒的动物有哪些? 不同的人想法是不一样的,甚至评选的标准也不一样。美国《世界野生生物》杂志曾经综合了全球各国学者的意见,评选出了世界上最毒的10种动物,号称世界十大毒王: 第一名:澳洲方…

    2022年10月2日
  • 耳机蓝牙厂是做什么的?蓝牙耳机厂家

    随着智能手机成为人手一部且完全离不开的重要工具,不仅很多移动互联网服务火了,就连围绕手机的各种配件也跟着火了。说到手机配件,目前TWS真无线蓝牙耳机是最具代表性的产品,而这点从各大手机厂商、外设厂商纷纷…

    2022年10月24日
  • 2022年抖音最火的歌曲有哪些?好听的歌曲2022年最火

    2022年火爆全网的热门歌曲实在是太多太多啦,比如温暖人心的《愿你》、小学生都爱的《孤勇者》、听醉无数人的《太想念》……我为大家精心准备了40首热门歌曲,记得点赞收藏,评论区留下你最爱的歌曲哦   01.太想…

    2022年10月1日
  • 怎么保存网页视频?保存网页视频

    网页中的视频如何下载到电脑上,你是不是很头疼?怎么下载保存网页中的视频,特别是网页中嵌入的优酷、腾讯等其他平台的视频,我们在日常的工作和生活中,特别是办公的时候,浏览到某个网页的时候,感觉到中间的视频…

    2022年10月7日
  • 怎么剥石榴的方法?如何剥石榴

    1、石榴果实营养丰富,维生素C含量比苹果、梨要高出一二倍。 2、 今天就来分享一下“剥石榴的小技巧”做法,喜欢的朋友可以先收藏,有空自己试一下。 3、下面开始介绍所需要的食材: 石榴 4、石榴好吃,剥起来可是一件…

    2022年12月5日
  • 电商运营主要做什么?

    电商运营是一种综合性的管理,它涉及到电子商务的各个方面,包括网站设计、推广、市场营销、客户服务等,旨在帮助企业提高销售业绩,提升品牌形象,拓展市场,提高客户满意度。 一、电商运营的主要任务 电商运营的主…

    投稿 2023年7月4日
  • 声呐原理

    声呐原理 一、什么是声呐 声呐是一种发射和接收声波的装置,它可以用来探测物体的位置、形状和深度。它是一种非常有用的测量工具,可以用来探测海洋生物、海床结构、潜艇和船只等。 二、声呐的原理 声呐的原理是将声…

    投稿 2023年3月31日
  • 网上购物买到假货?网购真假

    随着网络购物的发展,电商平台的成熟,人们网购体验越来越好。但假货现象屡禁不止,给人们带来困扰。“商品真假”成为消费者网购中绕不开的话题。你在网购过程中买到过假货吗? 上周,中国青年报社社会调查中心联合问…

    投稿 2022年10月20日
  • 诺基亚手机是哪个国家

    诺基亚手机是芬兰的 一、诺基亚的历史 诺基亚是一家芬兰的全球性电信公司,成立于1865年,最初是一家纸厂,后来发展成为一家全球性的电信公司。诺基亚的主要业务包括移动通信、固定通信、宽带和互联网服务,以及专业…

    投稿 2023年4月13日