Парсинг HTML на PHP

Рубрика: Новости -> Скрипты -> php
Воскресенье, 27 сентября 2009 г.
Просмотров: 36821
Подписаться на комментарии по RSS

возможности PHP для создания парсеров сейчас расскажу об одном из способов парсинга html (он подойдет и для xml тоже, кстати).

Лучше ли парсить html регулярными выражениями или использовать для этих целей

возможности PHP DOM,

является холиваром. Все зависит от сложности структуры данных. Ведь если структура достаточно сложная, то с помощью регулярок приходится парсить в несколько этапов: сначала выделить большой кусок, потом разделить его на более маленькие и т.д.. В итоге, если данные сложные (или их очень много), то процесс парсинга может значительно затянуться. Ресурсоемкость в этом случае еще будет зависеть, конечно же, от самих регулярных выражений. Если в регэкспах много ".*" (они являются самыми ресурсоемкими, т.к. "прочесывают" исходный код с максимальной

жадностью), то замедление будет заметным.

И вот как раз в этом-то случае как нельзя кстати приходится PHP DOM. Это удобный

инструмент для парсинга как XML, так и HTML. Некоторые придерживаются мнения, что парсить html регэкспами вообще нельзя, и яростно защищают PHP DOM.

Пиример скрипта наглядно показывающий, как это все легко и просто. В примере разбирается html с частью карты сайта какого то блога. Он присвоен переменной прямо внутри кода. В "боевых" же условиях исходные данные следует получать, например, через file_get_contents().

<?php
$html = '
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<head>
<title>Parsing-and-i.blogspot.com Map</title>
</head>
<body>
<h2>Последние темы блога</h2>
<!-- на 09.08.2009 -->
<table border="0">
   <tbody>
      <tr>
         <td><a href="http://parsing-and-i.blogspot.com/2009/08/blog-post_06.html" title="Базы">http://parsing-and-i.blogspot.com/2009/08/blog-post_06.html</a></td>
         <td>Базы</td>
      </tr>
      <tr>
         <td><a href="http://parsing-and-i.blogspot.com/2009/08/mysql-delphi-express.html" title="MySQL и Delphi. Express-метод">http://parsing-and-i.blogspot.com/2009/08/mysql-delphi-express.html</a></td>
         <td>MySQL и Delphi. Express-метод</td>
      </tr>
      <tr>
         <td><a href="http://parsing-and-i.blogspot.com/2009/08/blog-post.html" title="Пост о том, что лучше сто раз проверить">http://parsing-and-i.blogspot.com/2009/08/blog-post.html</a></td>
         <td>Пост о том, что лучше сто раз проверить</td>
      </tr>
   </tbody>
</table>
</body>
</html>
';
    /** создаем новый dom-объект **/
    $dom = new domDocument;
    /** загружаем html в объект **/
    $dom->loadHTML($html);
    $dom->preserveWhiteSpace = false;
    /** элемент по тэгу **/
    $tables = $dom->getElementsByTagName('table');
    /** получаем все строки таблицы **/
    $rows = $tables->item(0)->getElementsByTagName('tr');
    /** цикл по строкам **/
    foreach ($rows as $row)
    {
        /** все ячейки по тэгу **/
        $cols = $row->getElementsByTagName('td');
        /** выводим значения **/
        echo $cols->item(0)->nodeValue.'<br>';
        echo $cols->item(1)->nodeValue.'<br>';
        echo '<hr>';
    }
?>

В результате после запуска скрипта примера получаем такую картину:

источник