文章詳情頁

PHP中使用DOMDocument來處理HTML、XML文檔的示例

瀏覽：41日期：2022-09-07 14:46:39

其實(shí)從PHP5開始，PHP就為我們提供了一個(gè)強(qiáng)大的解析和生成XML相關(guān)操作的類，也就是我們今天要講的 DOMDocument 類。不過我估計(jì)大部分人在爬取網(wǎng)頁時(shí)還是會(huì)喜歡用正則去解析網(wǎng)頁內(nèi)容，學(xué)了今天的這個(gè)類下回就可以嘗試下使用這個(gè)PHP自帶的方式來進(jìn)行解析分析了。

解析HTML

// 解析 HTML$baidu = file_get_contents(’https://www.baidu.com’);$doc = new DOMDocument();@$doc->loadHTML($baidu);// 百度輸出框$inputSearch = $doc->getElementById(’kw’);var_dump($inputSearch);// object(DOMElement)#2 // ....echo $inputSearch->getAttribute(’name’), PHP_EOL; // wd// 獲取所有圖片的鏈接$allImageLinks = [];$imgs = $doc->getElementsByTagName(’img’);foreach($imgs as $img){ $allImageLinks[] = $img->getAttribute(’src’);}print_r($allImageLinks);// Array// (// [0] => //www.baidu.com/img/baidu_jgylogo3.gif// [1] => //www.baidu.com/img/bd_logo.png// [2] => http://s1.bdstatic.com/r/www/cache/static/global/img/gs_237f015b.gif// )// 利用 parse_url 分析鏈接foreach($allImageLinks as $link){ print_r(parse_url($link));}// Array// (// [host] => www.baidu.com// [path] => /img/baidu_jgylogo3.gif// )// Array// (// [host] => www.baidu.com// [path] => /img/bd_logo.png// )// Array// (// [scheme] => http// [host] => s1.bdstatic.com// [path] => /r/www/cache/static/global/img/gs_237f015b.gif// )

是不是感覺好清晰，好有面向?qū)ο蟮母杏X。就像第一次使用 ORM庫來進(jìn)行數(shù)據(jù)庫操作一樣的感覺。我們一段一段來看。

$baidu = file_get_contents(’https://www.baidu.com’);$doc = new DOMDocument();@$doc->loadHTML($baidu);

首先是加載文檔內(nèi)容，這個(gè)比較好理解，直接使用 loadHTML() 方法加載 HTML 內(nèi)容。它還提供了其它的幾個(gè)方法，分別是：load() 從一個(gè)文件加載XML；loadXML() 從字符串加載XML；loadHTMLFile() 從文件加載HTML。

// 百度輸出框$inputSearch = $doc->getElementById(’kw’);var_dump($inputSearch);// object(DOMElement)#2 // ....echo $inputSearch->getAttribute(’name’), PHP_EOL; // wd

接下來我們使用和前端 JS 一樣的 DOM 操作API來操作HTML里面的元素。這個(gè)例子中就是獲取百度的文本框，直接使用 getElementById() 方法獲得id為指定內(nèi)容的 DOMElement 對(duì)象。然后就可以獲取它的值、屬性之類的內(nèi)容了。

// 獲取所有圖片的鏈接$allImageLinks = [];$imgs = $doc->getElementsByTagName(’img’);foreach($imgs as $img){ $allImageLinks[] = $img->getAttribute(’src’);}print_r($allImageLinks);// Array// (// [0] => //www.baidu.com/img/baidu_jgylogo3.gif// [1] => //www.baidu.com/img/bd_logo.png// [2] => http://s1.bdstatic.com/r/www/cache/static/global/img/gs_237f015b.gif// )// 利用 parse_url 分析鏈接foreach($allImageLinks as $link){ print_r(parse_url($link));}// Array// (// [host] => www.baidu.com// [path] => /img/baidu_jgylogo3.gif// )// Array// (// [host] => www.baidu.com// [path] => /img/bd_logo.png// )// Array// (// [scheme] => http// [host] => s1.bdstatic.com// [path] => /r/www/cache/static/global/img/gs_237f015b.gif// )

這一段例子則是獲取HTML文檔中所有的圖片鏈接。相比正則來說，是不是方便很多，而且代碼本身就是自解釋的，不用考慮正則的匹配失效的問題。配合另外一個(gè)PHP中自帶的 parse_url() 方法也能非常方便地對(duì)鏈接進(jìn)行分析，提取自己想要的內(nèi)容。

XML的解析和對(duì)HTML的解析也是類似的，都使用 DOMDocument 和 DOMElement 提供的這個(gè)方法接口就可以很方便的進(jìn)行解析了。那么我們想要生成一個(gè)標(biāo)準(zhǔn)格式的XML呢？當(dāng)然也非常的簡單，不需要再去拼接字符串了，使用這個(gè)類一樣的進(jìn)行對(duì)象化的操作。

生成一個(gè)XML

// 生成一個(gè)XML文檔$xml = new DOMDocument(’1.0’, ’UTF-8’);$node1 = $xml->createElement(’First’, ’This is First Node.’);$node1->setAttribute(’type’, ’1’);$node2 = $xml->createElement(’Second’);$node2->setAttribute(’type’, ’2’);$node2_child = $xml->createElement(’Second-Child’, ’This is Second Node Child.’);$node2->appendChild($node2_child);$xml->appendChild($node1);$xml->appendChild($node2);print $xml->saveXML();/*<?xml version='1.0' encoding='UTF-8'?><First type='1'>This is First Node.</First><Second type='2'><Second-Child>This is Second Node Child.</Second-Child></Second>*/

其實(shí)只要有一點(diǎn)點(diǎn)的前端 JS 的基礎(chǔ)都不難看出這段代碼的含義。使用 createElement() 方法創(chuàng)造 DOMElement 對(duì)象，然后就可以為它添加屬性和內(nèi)容。使用 appendChild() 方法就可以為當(dāng)前的 DOMElement 或者 DOMDocument 添加下級(jí)節(jié)點(diǎn)。最后使用 saveXML() 就能夠生成標(biāo)準(zhǔn)的XML格式內(nèi)容了。

總結(jié)

通過上面兩個(gè)簡單的小例子，相信大家已經(jīng)對(duì)這個(gè) DOMDocument 操作XML類文件解析的方式非常感興趣了。不過相對(duì)于正則解析的方式它們的性能有多大的差異并沒有找到相關(guān)的測(cè)試，不過一般正常的情況下網(wǎng)站的HMTL文檔都不會(huì)太大，畢竟各個(gè)網(wǎng)站也會(huì)考慮自身的加載速度，如果文檔非常大的話用戶體驗(yàn)也會(huì)很差，所以這套接口用來進(jìn)行日常爬蟲的分析處理工作基本是沒有任何問題的。

測(cè)試代碼： github.com/zhangyue050…

以上就是PHP中使用DOMDocument來處理HTML、XML文檔的示例的詳細(xì)內(nèi)容，更多關(guān)于PHP DOMDocument處理HTML、XML的資料請(qǐng)關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

PHP

上一條：PHP中include和require的使用詳解下一條：PHP緩存系統(tǒng)APCu擴(kuò)展的使用

相關(guān)文章：

1. python利用os模塊編寫文件復(fù)制功能——copy()函數(shù)用法2. php測(cè)試程序運(yùn)行速度和頁面執(zhí)行速度的代碼3. php網(wǎng)絡(luò)安全中命令執(zhí)行漏洞的產(chǎn)生及本質(zhì)探究4. 三個(gè)不常見的 HTML5 實(shí)用新特性簡介5. 無線標(biāo)記語言(WML)基礎(chǔ)之WMLScript 基礎(chǔ)第1/2頁6. ajax請(qǐng)求添加自定義header參數(shù)代碼7. Python使用jupyter notebook查看ipynb文件過程解析8. 解決Python 進(jìn)程池Pool中一些坑9. 解決python腳本中error: unrecognized arguments: True錯(cuò)誤10. IntelliJ IDEA創(chuàng)建普通的Java 項(xiàng)目及創(chuàng)建 Java 文件并運(yùn)行的教程

排行榜

					
					Python使用jupyter notebook查看ipynb文件過程解析
解決Python 進(jìn)程池Pool中一些坑
IntelliJ IDEA調(diào)整字體大小的方法
docker容器調(diào)用yum報(bào)錯(cuò)的解決辦法
php測(cè)試程序運(yùn)行速度和頁面執(zhí)行速度的代碼
php網(wǎng)絡(luò)安全中命令執(zhí)行漏洞的產(chǎn)生及本質(zhì)探究
IntelliJ IDEA 2020最新激活碼(親測(cè)有效，可激活至 2089 年)
無線標(biāo)記語言(WML)基礎(chǔ)之WMLScript 基礎(chǔ)第1/2頁
IntelliJ IDEA 2021.1 首個(gè) Beta 版本發(fā)布
IntelliJ Idea 2020.1 正式發(fā)布,官方支持中文（必看）
Django Auth用戶認(rèn)證組件實(shí)現(xiàn)代碼