phpcurl抓取中文链接,phpcurl详解

本文目录一览：

1、使用PHP的cURL库进行网页抓取
2、php中curl爬虫怎么样通过网页获取所有链接
3、php curl用法
4、如何用php CURL 抓取微信网页的内容
5、php curl 抓取页面几种方法介绍

使用PHP的cURL库进行网页抓取

使用PHP的cURL库可以简单和有效地去抓网页你只需要运行一个脚本然后分析一下你所抓取的网页然后就可以以程序的方式得到你想要的数据了无论是你想从从一个链接上取部分数据或是取一个XML文件并把其导入数据库那怕就是简单的获取网页内容 cURL 是一个功能强大的PHP库本文主要讲述如果使用这个PHP库

启用 cURL 设置

首先我们得先要确定我们的PHP是否开启了这个库你可以通过使用php_info()函数来得到这一信息

﹤?phpphpinfo();?﹥

如果你可以在网页上看到下面的输出那么表示cURL库已被开启

如果你看到的话那么你需要设置你的PHP并开启这个库如果你是在Windows平台下那么非常简单你需要改一改你的php ini文件的设置找到php_curl dll 并取消前面的分号注释就行了如下所示

//取消下在的注释extension=php_curl dll

如果你是在Linux下面那么你需要重新编译你的PHP了编辑时你需要打开编译参数——在configure命令上加上 –with curl 参数

一个小示例

如果一切就绪下面是一个小例程

﹤?php// 初始化一个 cURL 对象$curl = curl_init();

// 设置你需要抓取的URLcurl_setopt($curl CURLOPT_URL //cocre );

// 设置headercurl_setopt($curl CURLOPT_HEADER );

// 设置cURL 参数要求结果保存到字符串中还是输出到屏幕上 curl_setopt($curl CURLOPT_RETURNTRANSFER );

// 运行cURL 请求网页$data = curl_exec($curl);

// 关闭URL请求curl_close($curl);

// 显示获得的数据var_dump($data);

如何POST数据

上面是抓取网页的代码下面则是向某个网页POST数据假设我们有一个处理表单的网址// example /sendSMS php 其可以接受两个表单域一个是电话号码一个是短信内容

﹤?php$phoneNumber = ;$message = This message was generated by curl and php ;$curlPost = pNUMBER= urlencode($phoneNumber) MESSAGE= urlencode($message) SUBMIT=Send ;$ch = curl_init();curl_setopt($ch CURLOPT_URL // example /sendSMS php );curl_setopt($ch CURLOPT_HEADER );curl_setopt($ch CURLOPT_RETURNTRANSFER );curl_setopt($ch CURLOPT_POST );curl_setopt($ch CURLOPT_POSTFIELDS $curlPost);$data = curl_exec();curl_close($ch);?﹥

从上面的程序我们可以看到使用CURLOPT_POST设置HTTP协议的POST方法而不是GET方法然后以CURLOPT_POSTFIELDS设置POST的数据

　　关于代理服务器

下面是一个如何使用代理服务器的示例请注意其中高亮的代码代码很简单我就不用多说了

﹤?php $ch = curl_init();curl_setopt($ch CURLOPT_URL // example );curl_setopt($ch CURLOPT_HEADER );curl_setopt($ch CURLOPT_RETURNTRANSFER );curl_setopt($ch CURLOPT_HTTPPROXYTUNNEL );curl_setopt($ch CURLOPT_PROXY fakeproxy : );curl_setopt($ch CURLOPT_PROXYUSERPWD user:password );$data = curl_exec();curl_close($ch);?﹥ 关于SSL和Cookie

关于SSL也就是HTTPS协议你只需要把CURLOPT_URL连接中的//变成//就可以了当然还有一个参数叫CURLOPT_SSL_VERIFYHOST可以设置为验证站点

关于Cookie 你需要了解下面三个参数

CURLOPT_COOKIE 在当面的会话中设置一个cookie

CURLOPT_COOKIEJAR 当会话结束的时候保存一个Cookie

CURLOPT_COOKIEFILE Cookie的文件

HTTP服务器认证

最后我们来看一看HTTP服务器认证的情况

﹤?php $ch = curl_init();curl_setopt($ch CURLOPT_URL // example );curl_setopt($ch CURLOPT_RETURNTRANSFER );curl_setopt($ch CURLOPT_HTTPAUTH CURLAUTH_BASIC);curl_setopt(CURLOPT_USERPWD [username]:[password] )

$data = curl_exec();curl_close($ch);?﹥

关于其它更多的内容请参看相关的cURL手册 lishixinzhi/Article/program/PHP/201311/21491

php中curl爬虫怎么样通过网页获取所有链接

本文承接上面两篇，本篇中的示例要调用到前两篇中的函数，做一个简单的URL采集。一般php采集网络数据会用file_get_contents、file和cURL。不过据说cURL会比file_get_contents、file更快更专业，更适合采集。今天就试试用cURL来获取网页上的所有链接。示例如下：

?php

* 使用curl 采集hao123.com下的所有链接。

include_once('function.php');

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, '');

// 只需返回HTTP header

curl_setopt($ch, CURLOPT_HEADER, 1);

// 页面内容我们并不需要

// curl_setopt($ch, CURLOPT_NOBODY, 1);

// 返回结果，而不是输出它

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

$html = curl_exec($ch);

$info = curl_getinfo($ch);

if ($html === false) {

echo "cURL Error: " . curl_error($ch);

}

curl_close($ch);

$linkarr = _striplinks($html);

// 主机部分，补全用

$host = '';

if (is_array($linkarr)) {

foreach ($linkarr as $k = $v) {

$linkresult[$k] = _expandlinks($v, $host);

}

printf("p此页面的所有链接为：/ppre%s/pren", var_export($linkresult , true));

function.php内容如下（即为上两篇中两个函数的合集）：

?php

function _striplinks($document) {

preg_match_all("'s*as.*?hrefs*=s*(["'])?(?(1) (.*?)\1 | ([^s]+))'isx", $document, $links);

// catenate the non-empty matches from the conditional subpattern

while (list($key, $val) = each($links[2])) {

if (!empty($val))

$match[] = $val;

} while (list($key, $val) = each($links[3])) {

if (!empty($val))

$match[] = $val;

}

// return the links

return $match;

}

/*===================================================================*

Function: _expandlinks

Purpose: expand each link into a fully qualified URL

Input: $links the links to qualify

$URI the full URI to get the base from

Output: $expandedLinks the expanded links

*===================================================================*/

function _expandlinks($links,$URI)

{

$URI_PARTS = parse_url($URI);

$host = $URI_PARTS["host"];

preg_match("/^[^?]+/",$URI,$match);

$match = preg_replace("|/[^/.]+.[^/.]+$|","",$match[0]);

$match = preg_replace("|/$|","",$match);

$match_part = parse_url($match);

$match_root =

$match_part["scheme"]."://".$match_part["host"];

$search = array( "|^http://".preg_quote($host)."|i",

"|^(/)|i",

"|^(?!http://)(?!mailto:)|i",

"|/./|",

"|/[^/]+/../|"

);

$replace = array( "",

$match_root."/",

$match."/",

"/",

"/"

);

$expandedLinks = preg_replace($search,$replace,$links);

return $expandedLinks;

}

phpcurl抓取中文链接,phpcurl详解

php curl用法

curl 是使用URL语法的传送文件工具，支持FTP、FTPS、HTTP HTPPS SCP SFTP TFTP TELNET DICT FILE和LDAP。curl 支持SSL证书、HTTP POST、HTTP PUT 、FTP 上传，kerberos、基于HTT格式的上传、代理、cookie、用户＋口令证明、文件传送恢复、http代理通道和大量其他有用的技巧。

如何用php CURL 抓取微信网页的内容

给你简单介绍几个吧

一、file_get_contents函数

$content = file_get_contents("URL");//URL就是你要获取的页面的地址

二、利用curl扩展

代码如下：

function getCurl($url){

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL,$url);

curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);//不输出内容

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);

$result = curl_exec($ch);

curl_close ($ch);

return $result;

}

PS：需要安装PHP的curl扩展

php curl 抓取页面几种方法介绍

使用代理进行抓取

为什么要使用代理进行抓取呢？以google为例吧，如果去抓google的数据，短时间内抓的很频繁的话，你就抓取不到了。google对你的ip地址做限制这个时候，你可以换代理重新抓。

代码如下

?php

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, "

);

curl_setopt($ch, CURLOPT_HEADER, false);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

curl_setopt($ch, CURLOPT_HTTPPROXYTUNNEL, TRUE);

curl_setopt($ch, CURLOPT_PROXY, 125.21.23.6:8080);

//url_setopt($ch, CURLOPT_PROXYUSERPWD, 'user:password');如果要密码的话，加上这个

$result=curl_exec($ch);

curl_close($ch);

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

phpcurl抓取中文链接,phpcurl详解

本文目录一览：

使用PHP的cURL库进行网页抓取

php中curl爬虫怎么样通过网页获取所有链接

php curl用法

如何用php CURL 抓取微信网页的内容

php curl 抓取页面几种方法介绍

phpcurl抓取中文链接,phpcurl详解

php的curl可以模拟ip,curl_init php

phpcurllinux的简单介绍

php错误类型500,php报错500

php查看cookie,php留言板代码

phpcurl抓取图片,php爬取图片

phpcurl抓取远程图片,抓取远程图片php函数

phpcurl得到session,phpcurl详解

phpcurl效率太低,phpcurl慢

php下curl与file,phpcurl

phpcurl端口,phpcurl详解

php抓取网页和分析,php抓取网页内容

phpcurl代码（phpcurl扩展）

phpcurlexec返回值,phpcurl详解

php怎样抓屏（php抓取）

php模拟登录详解（php模拟登录抓取内容）

php怎么提取下载链接（php如何下载）

php爬虫学习笔记1（php怎么爬数据）

php学习入门笔记,php 入门

php教程笔记复习1（细说php读书笔记）

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

phpcurl抓取中文链接,phpcurl详解

本文目录一览：

使用PHP的cURL库进行网页抓取

php中curl爬虫 怎么样通过网页获取所有链接

php curl用法

如何用php CURL 抓取微信网页的内容

php curl 抓取页面几种方法介绍

phpcurl抓取中文链接,phpcurl详解

php的curl可以模拟ip,curl_init php

phpcurllinux的简单介绍

php错误类型500,php报错500

php查看cookie,php留言板代码

phpcurl抓取图片,php爬取图片

phpcurl抓取远程图片,抓取远程图片php函数

phpcurl得到session,phpcurl详解

phpcurl效率太低,phpcurl慢

php下curl与file,phpcurl

phpcurl端口,phpcurl详解

php抓取网页和分析,php抓取网页内容

phpcurl代码（phpcurl扩展）

phpcurlexec返回值,phpcurl详解

php怎样抓屏（php抓取）

php模拟登录详解（php模拟登录抓取内容）

php怎么提取下载链接（php如何下载）

php爬虫学习笔记1（php怎么爬数据）

php学习入门笔记,php 入门

php教程笔记复习1（细说php读书笔记）

人机检测，请谅解

php中curl爬虫怎么样通过网页获取所有链接