关于php网页正文提取的信息

本文目录一览：

1、如何用 php 抓取微信文章正文
2、PHP 如何获取到一个网页的内容
3、php获取网页源码内容有哪些办法
4、php获取指定网页内容
5、用php 写一段提取某个网页中的某段的代码
6、网页正文及内容图片提取算法

如何用 php 抓取微信文章正文

很多人也有和你同样的想法，可以使用curl或file_get_contents。

在这里以curl为例

1、首先获得整个url对应的内容

$ch=curl_init();

curl_setopt($ch,CURLOPT_URL,$url);

curl_setopt($ch,CURLOPT_HEADER,0);

curl_setopt($ch,CURLOPT_TIMEOUT,5);

curl_setopt($ch,CURLOPT_NOBODY,0);

curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);

curl_setopt($ch,CURLOPT_USERAGENT, 'Sogouspider');

curl_setopt($ch,CURLOPT_USERAGENT,'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.47 Safari/536.11');

$html=curl_exec($ch);

curl_close($ch);

2、从获$html里面提取正文内容

$mark='div class="rich_media_content " id="js_content"';

$content=substr($html,strpos($html,$mark)+strlen($mark));

$content=trim(substr($content,0,strpos($content,'script type="text/javascript"')-50));

如对您有帮助，请采纳。

关于php网页正文提取的信息

PHP 如何获取到一个网页的内容

1.file_get_contents

PHP代码

复制代码代码如下:

?php

$url = "";

$contents = file_get_contents($url);

//如果出现中文乱码使用下面代码

//$getcontent = iconv("gb2312", "utf-8",$contents);

echo $contents;

2.curl

PHP代码

复制代码代码如下:

?php

$url = "";

$ch = curl_init();

$timeout = 5;

curl_setopt($ch, CURLOPT_URL, $url);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);

//在需要用户检测的网页里需要增加下面两行

//curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY);

//curl_setopt($ch, CURLOPT_USERPWD, US_NAME.":".US_PWD);

$contents = curl_exec($ch);

curl_close($ch);

echo $contents;

3.fopen-fread-fclose

PHP代码

复制代码代码如下:

?php

$handle = fopen ("", "rb");

$contents = "";

do {

$data = fread($handle, 1024);

if (strlen($data) == 0) {

break;

}

$contents .= $data;

} while(true);

fclose ($handle);

echo $contents;

注：

使用file_get_contents和fopen必须空间开启allow_url_fopen。方法：编辑php.ini，设置

allow_url_fopen = On，allow_url_fopen关闭时fopen和file_get_contents都不能打开远程文件。

2.使用curl必须空间开启curl。方法：windows下修改php.ini，将extension=php_curl.dll前面的分

号去掉，而且需要拷贝ssleay32.dll和libeay32.dll到C:\WINDOWS\system32下；Linux下要安装curl扩

展。

php获取网页源码内容有哪些办法

可以参考以下几种方法：

方法一： file_get_contents获取

span style="white-space:pre" /span$url="";

span style="white-space:pre" /span$fh= file_get_contents

('');span style="white-space:pre" /spanecho $fh;

方法二：使用fopen获取网页源代码

span style="white-space:pre" /span$url="";

span style="white-space:pre" /span$handle = fopen ($url, "rb");

span style="white-space:pre" /span$contents = "";

span style="white-space:pre" /spanwhile (!feof($handle)) {

span style="white-space:pre" /span$contents .= fread($handle, 8192);

span style="white-space:pre" /span}

span style="white-space:pre" /spanfclose($handle);

span style="white-space:pre" /spanecho $contents; //输出获取到得内容。

方法三：使用CURL获取网页源代码

$url="";

$UserAgent = 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.0.04506; .NET CLR 3.5.21022; .NET CLR 1.0.3705; .NET CLR 1.1.4322)';

$curl = curl_init(); //创建一个新的CURL资源

curl_setopt($curl, CURLOPT_URL, $url); //设置URL和相应的选项

curl_setopt($curl, CURLOPT_HEADER, 0); //0表示不输出Header，1表示输出

curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); //设定是否显示头信息,1显示，0不显示。//如果成功只将结果返回，不自动输出任何内容。如果失败返回FALSE

curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);

curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false);

curl_setopt($curl, CURLOPT_ENCODING, ''); //设置编码格式，为空表示支持所有格式的编码

//header中“Accept-Encoding: ”部分的内容，支持的编码格式为："identity"，"deflate"，"gzip"。

curl_setopt($curl, CURLOPT_USERAGENT, $UserAgent);

curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1);

//设置这个选项为一个非零值(象 “Location: “)的头，服务器会把它当做HTTP头的一部分发送(注意这是递归的，PHP将发送形如 “Location: “的头)。

$data = curl_exec($curl);

echo $data;

//echo curl_errno($curl); //返回0时表示程序执行成功

curl_close($curl); //关闭cURL资源，并释放系统资源

拓展资料

PHP（外文名:PHP: Hypertext Preprocessor，中文名：“超文本预处理器”）是一种通用开源脚本语言。语法吸收了C语言、Java和Perl的特点，利于学习，使用广泛，主要适用于Web开发领域。PHP 独特的语法混合了C、Java、Perl以及PHP自创的语法。它可以比CGI或者Perl更快速地执行动态网页。

用PHP做出的动态页面与其他的编程语言相比，PHP是将程序嵌入到HTML（标准通用标记语言下的一个应用）文档中去执行，执行效率比完全生成HTML标记的CGI要高许多；PHP还可以执行编译后代码，编译可以达到加密和优化代码运行，使代码运行更快。

参考资料：PHP（超文本预处理器)-百度百科

php获取指定网页内容

一、用file_get_contents函数,以post方式获取url

?php

$url= '';

$data= array('foo'= 'bar');

$data= http_build_query($data);

$opts= array(

'http'= array(

'method'= 'POST',

'header'="Content-type: application/x-www-form-urlencoded\r\n" .

"Content-Length: " . strlen($data) . "\r\n",

'content'= $data

)

);

$ctx= stream_context_create($opts);

$html= @file_get_contents($url,'',$ctx);

二、用file_get_contents以get方式获取内容

?php

$url='';

$html= file_get_contents($url);

echo$html;

三、用fopen打开url, 以get方式获取内容

?php

$fp= fopen($url,'r');

$header= stream_get_meta_data($fp);//获取报头信息

while(!feof($fp)) {

$result.= fgets($fp, 1024);

}

echo"url header: {$header} br":

echo"url body: $result";

fclose($fp);

四、用fopen打开url, 以post方式获取内容

?php

$data= array('foo2'= 'bar2','foo3'='bar3');

$data= http_build_query($data);

$opts= array(

'http'= array(

'method'= 'POST',

'header'="Content-type: application/x-www-form-

urlencoded\r\nCookie:cook1=c3;cook2=c4\r\n" .

"Content-Length: " . strlen($data) . "\r\n",

'content'= $data

)

);

$context= stream_context_create($opts);

$html= fopen(';id2=i4','rb',false, $context);

$w=fread($html,1024);

echo$w;

五、使用curl库，使用curl库之前，可能需要查看一下php.ini是否已经打开了curl扩展

?php

$ch= curl_init();

$timeout= 5;

curl_setopt ($ch, CURLOPT_URL, '');

curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);

curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);

$file_contents= curl_exec($ch);

curl_close($ch);

echo$file_contents;

用php 写一段提取某个网页中的某段的代码

?php

//获取网页内容

$str=file_get_contents('');

//删除 div class="chapter"之前的内容

if ($x=strpos($str,'div class="chapter"')) $str=substr($str,$x);

//删除 !-- 章节列表结束 --之后的内容

if ($x=strpos($str,'!-- 章节列表结束 --')) $str=substr($str,0,$x);

//输出结果

echo $str;

网页正文及内容图片提取算法

备份自：

问题：如何提取任意（尤其是新闻、资讯类）网页的正文内容，提取与文章内容相关的图片，源码可见： extractor.py 。

抓取单个网站网页内容时通常采用正则匹配的方式，但不同网站之间结构千奇百怪，很难用统一的正则表达式进行匹配。《基于行块分布函数的通用网页正文抽取算法》的作者总结了一般从网页中提取文章正文的方法，提出基于行块分布的正文抽取算法，并给出了 PHP 、Java 等实现。这一算法的主要原理基于两点：

算法步骤如下：

以上算法基本可以应对大部分（中文）网页正文的提取，针对有些网站正文图片多于文字的情况，可以采用保留 img 标签中图片链接的方法，增加正文密度。目前少量测试发现的问题有：1）文章分页或动态加载的网页；2）评论长度过长喧宾夺主的网页。

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

关于php网页正文提取的信息

本文目录一览：

如何用 php 抓取微信文章正文

PHP 如何获取到一个网页的内容

php获取网页源码内容有哪些办法

php获取指定网页内容

用php 写一段提取某个网页中的某段的代码

网页正文及内容图片提取算法

关于php网页正文提取的信息

关于aps论坛和php论坛的信息

php新手笔记,php初学者

关于跨页获取信息保存在类php的信息

php基础学习笔记下,细说php读书笔记

php教程笔记复习1（细说php读书笔记）

关于php视频网站系统下载的信息

php学习入门笔记,php 入门

关于php获取http头信息的信息

学习php随笔,PHP笔记

关于php跨域shang传文件的信息

关于来自phpguru得php的信息

关于php实现datagrid的信息

php笔记程序官方下载,php笔记程序官方下载网站

关于php的文章,PHP论文

关于iis配php的信息

关于php编译curlhttps的信息

关于php网站暴库的信息

关于php抓取asp页面,php抓取网页数据

关于phpflashcookie的信息

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

关于php网页正文提取的信息

本文目录一览：

如何用 php 抓取微信文章正文

PHP 如何获取到一个网页的内容

php获取网页源码内容有哪些办法

php获取指定网页内容

用php 写一段提取某个网页中的某段的代码

网页正文及内容图片提取算法

关于php网页正文提取的信息

关于aps论坛和php论坛的信息

php新手笔记,php初学者

关于跨页获取信息保存在类php的信息

php基础学习笔记下,细说php读书笔记

php教程笔记复习1（细说php读书笔记）

关于php视频网站系统下载的信息

php学习入门笔记,php 入门

关于php获取http头信息的信息

学习php随笔,PHP笔记

关于php跨域shang传文件的信息

关于来自phpguru得php的信息

关于php实现datagrid的信息

php笔记程序官方下载,php笔记程序官方下载网站

关于php的文章,PHP论文

关于iis配php的信息

关于php编译curlhttps的信息

关于php网站暴库的信息

关于php抓取asp页面,php抓取网页数据

关于phpflashcookie的信息

人机检测，请谅解