常用PHP做网页抓取、模拟请求业务的朋友应该都知道Curl这个神器。
Curl是一个十分强大的开源库,支持http、https、telnet、ftp等等多种网络协议,在PHP中我们通过curl的一系列函数,可以很方便的对会话请求进行处理。
虽然常用,但是每回用还是要百度几遍才能正常使用...今天在这里做个关于curl的总结,便于以后的使用,同时也将总结内容分享给大家。
使用CURL发送会话请求的基本流程
CURL属于典型的“活好不粘人”的工具,虽然功能强大,但是使用方式十分简单、成熟。
使用CURL发送会话请求一般有以下几个步骤:
初始化连接句柄
配置CURL选项
执行请求并返回结果
释放连接句柄
精简一下就是:建立连接 -> 制定规则 -> 请求数据 -> 解除连接
简单、干脆,绝不拖泥带水!
使用CURL模拟GET方式进行数据请求
对于get方式进行数据请求的业务类型,方式有很多。
对于简单的调用链接,返回数据,其实可以理解为读取一个html文件。
使用file_get_contents()、fopen()等函数可以轻松解决。
但是对于请求时需要控制COOKIE、header信息等内容的get请求,就需要祭出curl来解决了!
1 2 3 4 5 6 7 8 9 10 11 12 | function curl_get_https( $url ){ $curl = curl_init(); // 建立连接句柄,启动一个CURL会话 curl_setopt( $curl , CURLOPT_URL, $url ); curl_setopt( $curl , CURLOPT_HEADER, 0); curl_setopt( $curl , CURLOPT_RETURNTRANSFER, 1); curl_setopt( $curl , CURLOPT_SSL_VERIFYPEER, false); // 跳过证书检查 curl_setopt( $curl , CURLOPT_SSL_VERIFYHOST, true); // 从证书中检查SSL加密算法是否存在 $tmpInfo = curl_exec( $curl ); // 执行请求并返回结果 curl_close( $curl ); // 释放连接句柄,关闭URL请求 return $tmpInfo ; // return返回结果 } |
使用CURL模拟POST方式进行数据请求
常见的,获取较多数据的接口,一般使用post作为请求参数传输方式
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 | /* PHP CURL HTTPS POST */ function curl_post_https( $url , $data ){ // 模拟提交数据函数 $curl = curl_init(); // 建立连接句柄,启动一个CURL会话 curl_setopt( $curl , CURLOPT_URL, $url ); // 要访问的地址 curl_setopt( $curl , CURLOPT_SSL_VERIFYPEER, 0); // 对认证证书来源的检查 curl_setopt( $curl , CURLOPT_SSL_VERIFYHOST, 1); // 从证书中检查SSL加密算法是否存在 curl_setopt( $curl , CURLOPT_USERAGENT, $_SERVER [ 'HTTP_USER_AGENT' ]); // 模拟用户使用的浏览器 curl_setopt( $curl , CURLOPT_FOLLOWLOCATION, 1); // 使用自动跳转 curl_setopt( $curl , CURLOPT_AUTOREFERER, 1); // 自动设置Referer curl_setopt( $curl , CURLOPT_POST, 1); // 发送一个常规的Post请求 curl_setopt( $curl , CURLOPT_POSTFIELDS, $data ); // Post提交的数据包 curl_setopt( $curl , CURLOPT_TIMEOUT, 30); // 设置超时限制防止死循环 curl_setopt( $curl , CURLOPT_HEADER, 0); // 显示返回的Header区域内容 curl_setopt( $curl , CURLOPT_RETURNTRANSFER, 1); // 获取的信息以文件流的形式返回 $tmpInfo = curl_exec( $curl ); // 执行操作 if (curl_errno( $curl )) { echo 'Errno' .curl_error( $curl ); //捕抓异常 } curl_close( $curl ); // 释放连接句柄,关闭CURL会话 return $tmpInfo ; // return返回结果 } |
使用PHP开源库curl的curl_setopt方法,配合各种配置参数,可以很方便的模拟各类请求。
使用CURL处理上传、下载业务
留坑待填
使用CURL抓取远程链接图片
留坑待填
分享一个比较靠谱的请求封装函数
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 | /* * 参数1:调用接口的的URL * 参数2:post数据(不填则为GET) * 参数3:模拟提交的$cookies内容 * 参数4:是否return请求返回的$cookies */ function curl_request( $url , $post = '' , $cookie = '' , $returnCookie =0){ $curl = curl_init(); curl_setopt( $curl , CURLOPT_URL, $url ); curl_setopt( $curl , CURLOPT_USERAGENT, 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; Trident/6.0)' ); curl_setopt( $curl , CURLOPT_FOLLOWLOCATION, 1); curl_setopt( $curl , CURLOPT_AUTOREFERER, 1); curl_setopt( $curl , CURLOPT_REFERER, "http://XXX" ); if ( $post ) { curl_setopt( $curl , CURLOPT_POST, 1); curl_setopt( $curl , CURLOPT_POSTFIELDS, http_build_query( $post )); } if ( $cookie ) { curl_setopt( $curl , CURLOPT_COOKIE, $cookie ); } curl_setopt( $curl , CURLOPT_HEADER, $returnCookie ); curl_setopt( $curl , CURLOPT_TIMEOUT, 10); curl_setopt( $curl , CURLOPT_RETURNTRANSFER, 1); $data = curl_exec( $curl ); if (curl_errno( $curl )) { return curl_error( $curl ); } curl_close( $curl ); if ( $returnCookie ){ list( $header , $body ) = explode ( "\r\n\r\n" , $data , 2); preg_match_all( "/Set\-Cookie:([^;]*);/" , $header , $matches ); $info [ 'cookie' ] = substr ( $matches [1][0], 1); $info [ 'content' ] = $body ; return $info ; } else { return $data ; } } |
常见配置信息
1 2 3 | curl_setopt( $curl , CURLOPT_COOKIE, $cookie ); # 配置请求COOKIE信息 curl_setopt( $curl , CURLOPT_URL, $url ); # 配置请求链接 curl_setopt( $curl , CURLOPT_POST, 1); # 配置请求方式为post |
常用的curl函数
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 | curl_close — 关闭 cURL 会话 curl_copy_handle — 复制一个cURL句柄和它的所有选项 curl_errno — 返回最后一次的错误代码 curl_error — 返回当前会话最后一次错误的字符串 curl_escape — 使用 URL 编码给定的字符串 curl_exec — 执行 cURL 会话 curl_file_create — 创建一个 CURLFile 对象 curl_getinfo — 获取一个cURL连接资源句柄的信息 curl_init — 初始化 cURL 会话 curl_multi_add_handle — 向curl批处理会话中添加单独的curl句柄 curl_multi_close — 关闭一组cURL句柄 curl_multi_errno — 返回上一次 curl 批处理的错误码 curl_multi_exec — 运行当前 cURL 句柄的子连接 curl_multi_getcontent — 如果设置了CURLOPT_RETURNTRANSFER,则返回获取的输出的文本流 curl_multi_info_read — 获取当前解析的cURL的相关传输信息 curl_multi_init — 返回一个新cURL批处理句柄 curl_multi_remove_handle — 移除cURL批处理句柄资源中的某个句柄资源 curl_multi_select — 等待所有cURL批处理中的活动连接 curl_multi_setopt — 为 cURL 并行处理设置一个选项 curl_multi_strerror — 返回字符串描述的错误代码 curl_pause — 暂停和取消暂停一个连接。 curl_reset — 重置一个 libcurl 会话句柄的所有的选项 curl_setopt_array — 为 cURL 传输会话批量设置选项 curl_setopt — 设置 cURL 传输选项 curl_share_close — 关闭 cURL 共享句柄 curl_share_errno — Return the last share curl error number curl_share_init — 初始化一个 cURL 共享句柄。 curl_share_setopt — 为 cURL 共享句柄设置选项。 curl_share_strerror — Return string describing the given error code curl_strerror — 返回错误代码的字符串描述 curl_unescape — 解码给定的 URL 编码的字符串 curl_version — 获取 cURL 版本信息 |
常用的curl可选配置常量
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 | CURLINFO_EFFECTIVE_URL 最后一个有效的url地址 CURLINFO_HTTP_CODE 最后一个收到的HTTP代码 CURLINFO_FILETIME 远程获取文档的时间,如果无法获取,则返回值为“-1” CURLINFO_TOTAL_TIME 最后一次传输所消耗的时间 CURLINFO_NAMELOOKUP_TIME 名称解析所消耗的时间 CURLINFO_CONNECT_TIME 建立连接所消耗的时间 CURLINFO_PRETRANSFER_TIME 从建立连接到准备传输所使用的时间 CURLINFO_STARTTRANSFER_TIME 从建立连接到传输开始所使用的时间 CURLINFO_REDIRECT_TIME 在事务传输开始前重定向所使用的时间 CURLINFO_SIZE_UPLOAD 上传数据量的总值 CURLINFO_SIZE_DOWNLOAD 下载数据量的总值 CURLINFO_SPEED_DOWNLOAD 平均下载速度 CURLINFO_SPEED_UPLOAD 平均上传速度 CURLINFO_HEADER_SIZE header部分的大小 CURLINFO_HEADER_OUT 发送请求的字符串 CURLINFO_REQUEST_SIZE 在HTTP请求中有问题的请求的大小 CURLINFO_SSL_VERIFYRESULT Result of SSL certification verification requested by setting CURLOPT_SSL_VERIFYPEER CURLINFO_CONTENT_LENGTH_DOWNLOAD 从Content-Length: field中读取的下载内容长度 CURLINFO_CONTENT_LENGTH_UPLOAD 上传内容大小的说明 CURLINFO_CONTENT_TYPE 下载内容的“Content-type”值,NULL表示服务器没有发送有效的“Content-Type: header” CURLOPT_AUTOREFERER 自动设置header中的referer信息 CURLOPT_BINARYTRANSFER 在启用CURLOPT_RETURNTRANSFER时候将获取数据返回 CURLOPT_COOKIESESSION 启用时curl会仅仅传递一个session cookie,忽略其他的cookie,默认状况下curl会将所有的cookie返回给服务端。session cookie是指那些用来判断服务器端的session是否有效而存在的cookie。 CURLOPT_CRLF 启用时将Unix的换行符转换成回车换行符。 CURLOPT_DNS_USE_GLOBAL_CACHE 启用时会启用一个全局的DNS缓存,此项为线程安全的,并且默认为true。 CURLOPT_FAILONERROR 显示HTTP状态码,默认行为是忽略编号小于等于400的HTTP信息 CURLOPT_FILETIME 启用时会尝试修改远程文档中的信息。结果信息会通过curl_getinfo()函数的CURLINFO_FILETIME选项返回。 CURLOPT_FOLLOWLOCATION 启用时会将服务器服务器返回的“Location:”放在header中递归的返回给服务器,使用CURLOPT_MAXREDIRS可以限定递归返回的数量。 CURLOPT_FORBID_REUSE 在完成交互以后强迫断开连接,不能重用。 CURLOPT_FRESH_CONNECT 强制获取一个新的连接,替代缓存中的连接。 CURLOPT_HEADER 启用时会将头文件的信息作为数据流输出。 CURLOPT_HTTPGET 启用时会设置HTTP的method为GET,因为GET是默认是,所以只在被修改的情况下使用。 CURLOPT_HTTPPROXYTUNNEL 启用时会通过HTTP代理来传输。 CURLOPT_MUTE 讲curl函数中所有修改过的参数恢复默认值。 CURLOPT_NETRC 在连接建立以后,访问~/.netrc文件获取用户名和密码信息连接远程站点。 CURLOPT_NOBODY 启用时将不对HTML中的body部分进行输出。 CURLOPT_NOPROGRESS 启用时关闭curl传输的进度条,此项的默认设置为true CURLOPT_NOSIGNAL 启用时忽略所有的curl传递给php进行的信号。在SAPI多线程传输时此项被默认打开。 CURLOPT_POST 启用时会发送一个常规的POST请求,类型为:application/x-www-form-urlencoded,就像表单提交的一样。 CURLOPT_PUT 启用时允许HTTP发送文件,必须同时设置CURLOPT_INFILE和CURLOPT_INFILESIZE CURLOPT_RETURNTRANSFER 讲curl_exec()获取的信息以文件流的形式返回,而不是直接输出。 CURLOPT_UNRESTRICTED_AUTH 在使用CURLOPT_FOLLOWLOCATION产生的header中的多个locations中持续追加用户名和密码信息,即使域名已发生改变。 CURLOPT_UPLOAD 启用时允许文件传输 CURLOPT_VERBOSE 启用时会汇报所有的信息,存放在STDERR或指定的CURLOPT_STDERR中 CURLOPT_BUFFERSIZE 每次获取的数据中读入缓存的大小,这个值每次都会被填满。 CURLOPT_CLOSEPOLICY 不是CURLCLOSEPOLICY_LEAST_RECENTLY_USED就是CURLCLOSEPOLICY_OLDEST,还存在另外三个,但是curl暂时还不支持。. CURLOPT_CONNECTTIMEOUT 在发起连接前等待的时间,如果设置为0,则不等待。 CURLOPT_DNS_CACHE_TIMEOUT 设置在内存中保存DNS信息的时间,默认为120秒。 CURLOPT_HTTP_VERSION 设置curl使用的HTTP协议,CURL_HTTP_VERSION_NONE(让curl自己判断),CURL_HTTP_VERSION_1_0(HTTP/1.0),CURL_HTTP_VERSION_1_1(HTTP/1.1) |
友情提示:垃圾评论一律封号...