当前位置:首页 » 编程语言 » php内容抓取

php内容抓取

发布时间: 2022-11-28 20:06:18

php获取网页源码内容有哪些办法

1、使用file_get_contents获得网页源代码。这个方法最常用,只需要两行代码即可,非常简单方便。

2、使用fopen获得网页源代码。这个方法用的人也不少,不过代码有点多。

3、使用curl获得网页源代码。使用curl获得网页源代码的做法,往往是需要更高要求的人使用,例如当你需要在抓取网页内容的同时,得到网页header信息,还有ENCODING编码的使,USERAGENT的使用等等。

㈡ php抓取网页指定的内容

我给你一个思路, 代码我也不会给的, 会被网络删的.

抓取网上的数据, 一般用正则去匹配. 你可以匹配开头为<div class="so_weather">的, 然后匹配结尾. 结尾尽量是这个开头div的下一个同级div, 如<div id="asda">, 这样. 然后得到的数据用strip_tags函数将html代码都去了, 得到的结果就是你想要的

㈢ PHP怎样抓取网页代码中动态显示的数据

你是想抓别人网页上ajax动态载入的数据吧?

1、要找到它的ajax载入的URL地址

2、利用PHP的file_get_contents($url)函数读取那个url地址。

3、对抓取到的内容进行分析或正则过滤。

㈣ PHP抓取网页指定内容

<?php
/*
* 如下: 方法有点笨
* 抓取网页内容用 PHP 的正则
* 用JS每隔5分钟刷新当前页面---即重新获取网页内容
*
* 注: $mode中--<title></title>-更改为所需内容(如 $mode = "#<a(.*)</a>#";>获取所有链接)
*
* window.location.href="http://localhost//refesh.php";中的http://localhost//refesh.php
* 更改为自己的URL----作用:即刷新当前页面
*
* setInterval("ref()",300000);是每隔300000毫秒(即 5 * 60 *1000 毫秒即5分钟)执行一次函数 ref()
*
* print_r($arr);输出获得的所有内容 $arr是一个数组 可根据所需输出一部分(如 echo $arr[1][0];)
* 若要获得所有内容 可去掉
* $mode = "#<title>(.*)</title>#";
if(preg_match_all($mode,$content,$arr)){
print_r($arr);
echo "<br/>";
echo $arr[1][0];
}
再加上 echo $content;
*/
$url = "http://www..com"; //目标站
$fp = @fopen($url, "r") or die("超时");

$content=file_get_contents($url);
$mode = "#<title>(.*)</title>#";
if(preg_match_all($mode,$content,$arr)){
//print_r($arr);
echo "<br/>";
echo $arr[1][0];
}
?>
<script language="javaScript" type="text/javascript">
<--
function ref(){
window.location.href="http://localhost//refesh.php";
}
setInterval("ref()",300000);
//-->
</script>

㈤ php获取网页源码内容有哪些办法

可以参考以下几种方法:

方法一: file_get_contents获取

<span style="white-space:pre"></span>$url="http://www..com/";

<span style="white-space:pre"></span>$fh= file_get_contents

('http://www.hxfzzx.com/news/fzfj/');<span style="white-space:pre"></span>echo $fh;

拓展资料

PHP(外文名:PHP: Hypertext Preprocessor,中文名:“超文本预处理器”)是一种通用开源脚本语言。语法吸收了C语言、Java和Perl的特点,利于学习,使用广泛,主要适用于Web开发领域。PHP 独特的语法混合了C、Java、Perl以及PHP自创的语法。它可以比CGI或者Perl更快速地执行动态网页。

用PHP做出的动态页面与其他的编程语言相比,PHP是将程序嵌入到HTML(标准通用标记语言下的一个应用)文档中去执行,执行效率比完全生成HTML标记的CGI要高许多;PHP还可以执行编译后代码,编译可以达到加密和优化代码运行,使代码运行更快。

㈥ 如何用 php 抓取微信文章正文

很多人也有和你同样的想法,可以使用curl或file_get_contents。

在这里以curl为例

1、首先获得整个url对应的内容

$ch=curl_init();
    curl_setopt($ch,CURLOPT_URL,$url);
    curl_setopt($ch,CURLOPT_HEADER,0);
    curl_setopt($ch,CURLOPT_TIMEOUT,5);
    curl_setopt($ch,CURLOPT_NOBODY,0);
    curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
    curl_setopt($ch,CURLOPT_USERAGENT, 'Sogouspider');
    curl_setopt($ch,CURLOPT_USERAGENT,'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.47 Safari/536.11');
    $html=curl_exec($ch);
    curl_close($ch);

2、从获$html里面提取正文内容

$mark='<div class="rich_media_content " id="js_content">';
$content=substr($html,strpos($html,$mark)+strlen($mark));
$content=trim(substr($content,0,strpos($content,'<script type="text/javascript">')-50));

如对您有帮助,请采纳。

㈦ php怎么抓取其它网站数据

最基本的原理就是获取该网页的内容之后 通过正则去匹配 获取自己想要的内容

㈧ php 怎么抓取隐藏的内容

隐藏的内容,如果是指网页的话,可以用file_get_contents 或者 cURL包 读取整个网页的源码,进行提取。

㈨ php抓取页面内容

<?php
$rs=file_get_contents('http://www.boc.cn/sourcedb/whpj/enindex.html');
preg_match('/<tablewidth="600"border="0"cellpadding="5"cellspacing="1"bgcolor="#EAEAEA">(.*?)</table>/sS',$rs,$match);
//print_r($match);
$rs=str_replace(array('</tr>','</td>','<tralign="center">','<tdbgcolor="#FFFFFF">'),array('|',';'),$match[1]);
//www.hi-docs.com/php/str_replace.html
$data=array();
$rs=explode('|',$rs);
foreach($rsas$key=>$item){
if($key>0){
$arr=explode(';',$item);
($a=@trim($arr[0]))&&($b=@trim($arr[5]))&&$data[]=array($a,$b);
}
}
print_r($data);
?>

热点内容
陌陌登陆密码是什么 发布:2025-01-18 14:36:54 浏览:847
海龟编译器代码 发布:2025-01-18 14:16:51 浏览:34
大闸蟹网站源码 发布:2025-01-18 14:12:19 浏览:104
电脑服务器日期怎么改 发布:2025-01-18 14:05:03 浏览:686
用什么方法打开密码箱呢 发布:2025-01-18 14:04:08 浏览:427
net编程模式 发布:2025-01-18 13:54:20 浏览:690
手机上传播病毒 发布:2025-01-18 13:49:20 浏览:503
空调压缩机电路 发布:2025-01-18 13:42:42 浏览:545
空间访问的记录恢复 发布:2025-01-18 13:26:19 浏览:999
云服务器mysql怎么连接 发布:2025-01-18 13:26:08 浏览:648