laravel 爬虫_curl 爬虫

Image

Laravel 爬虫_curl 爬虫

在现代Web开发中,数据抓取(爬虫)是一项常见的需求。Laravel 是一个非常流行的 PHP 框架,可以方便地集成各种工具和技术来实现爬虫功能。介绍如何使用 Laravel 和 cURL 来实现简单的网页爬虫,并提供多种思路和示例代码。

解决方案

我们将使用 Laravel 的 Artisan 命令来创建一个命令行任务,该任务将使用 cURL 库从目标网站抓取数据。我们将展示如何发送 HTTP 请求、处理响应以及保存数据到数据库中。其他一些常用的爬虫技术,如使用 Guzzle HTTP 客户端和 Symfony 的 DomCrawler 组件。

使用 cURL 实现爬虫

创建 Artisan 命令

我们需要创建一个 Artisan 命令来执行爬虫任务。打开终端,运行以下命令:

bash
php artisan make:command FetchData

这将在 app/Console/Commands 目录下生成一个 FetchData.php 文件。打开该文件并编辑如下:

php
<?php</p>

<p>namespace AppConsoleCommands;</p>

<p>use IlluminateConsoleCommand;
use IlluminateSupportFacadesDB;</p>

<p>class FetchData extends Command
{
    /**
     * The name and signature of the console command.
     *
     * @var string
     */
    protected $signature = 'fetch:data';</p>

<pre><code>/**
 * The console command description.
 *
 * @var string
 */
protected $description = 'Fetch data from a website using cURL';

/**
 * Execute the console command.
 *
 * @return int
 */
public function handle()
{
    $url = 'https://example.com';
    $ch = curl_init($url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    $response = curl_exec($ch);
    curl_close($ch);

    if ($response === false) {
        $this->error('Failed to fetch data from ' . $url);
        return 1;
    }

    // 解析响应内容
    $html = new DOMDocument();
    @$html->loadHTML($response);
    $xpath = new DOMXPath($html);

    // 提取所需数据
    $nodes = $xpath->query('//div[@class="item"]');

    foreach ($nodes as $node) {
        $title = $node->getElementsByTagName('h2')->item(0)->nodeValue;
        $content = $node->getElementsByTagName('p')->item(0)->nodeValue;

        // 保存到数据库
        DB::table('data')->insert([
            'title' => $title,
            'content' => $content,
            'created_at' => now(),
            'updated_at' => now(),
        ]);
    }

    $this->info('Data fetched successfully');
    return 0;
}

}

注册命令

接下来,我们需要在 AppConsoleKernel 中注册这个命令。打开 app/Console/Kernel.php 文件,找到 protected $commands 数组,添加以下内容:

php
protected $commands = [
AppConsoleCommandsFetchData::class,
];

运行命令

现在,你可以通过以下命令来运行爬虫任务:

bash
php artisan fetch:data

使用 Guzzle HTTP 客户端

Guzzle 是一个强大的 PHP HTTP 客户端库,可以简化 HTTP 请求的发送。我们可以通过 Composer 安装 Guzzle:

bash
composer require guzzlehttp/guzzle

然后,修改 FetchData 命令的 handle 方法:

php
use GuzzleHttpClient;</p>

<p>public function handle()
{
    $url = 'https://example.com';
    $client = new Client();
    $response = $client->request('GET', $url);</p>

<pre><code>if ($response->getStatusCode() !== 200) {
    $this->error('Failed to fetch data from ' . $url);
    return 1;
}

$html = new DOMDocument();
@$html->loadHTML($response->getBody());
$xpath = new DOMXPath($html);

$nodes = $xpath->query('//div[@class="item"]');

foreach ($nodes as $node) {
    $title = $node->getElementsByTagName('h2')->item(0)->nodeValue;
    $content = $node->getElementsByTagName('p')->item(0)->nodeValue;

    DB::table('data')->insert([
        'title' => $title,
        'content' => $content,
        'created_at' => now(),
        'updated_at' => now(),
    ]);
}

$this->info('Data fetched successfully');
return 0;

}

使用 Symfony DomCrawler

Symfony 的 DomCrawler 组件可以帮助我们更方便地解析 HTML 文档。我们可以通过 Composer 安装该组件:

bash
composer require symfony/dom-crawler

然后,修改 FetchData 命令的 handle 方法:

php
use GuzzleHttpClient;
use SymfonyComponentDomCrawlerCrawler;</p>

<p>public function handle()
{
    $url = 'https://example.com';
    $client = new Client();
    $response = $client->request('GET', $url);</p>

<pre><code>if ($response->getStatusCode() !== 200) {
    $this->error('Failed to fetch data from ' . $url);
    return 1;
}

$crawler = new Crawler((string) $response->getBody());

$nodes = $crawler->filter('div.item');

foreach ($nodes as $node) {
    $title = $node->filter('h2')->text();
    $content = $node->filter('p')->text();

    DB::table('data')->insert([
        'title' => $title,
        'content' => $content,
        'created_at' => now(),
        'updated_at' => now(),
    ]);
}

$this->info('Data fetched successfully');
return 0;

}

如何在 Laravel 中使用 cURL、Guzzle 和 Symfony DomCrawler 实现简单的网页爬虫。通过这些工具,我们可以轻松地发送 HTTP 请求、解析 HTML 内容并保存数据到数据库中。能帮助你在实际项目中实现高效的数据抓取。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/67838.html<

(0)
运维的头像运维
上一篇2025-02-06 14:31
下一篇 2025-02-06 14:32

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注