Selenium与数据库:有效获取表格数据 (selenium 获取表格数据库)

Selenium是一个广泛使用的自动化测试框架,主要用于Web应用程序测试。然而,Selenium的应用领域不仅仅限于测试,它也可以被用来抽取或提取一个或多个网页上的数据。而在这个过程中,数据库的应用也变得非常重要。

在此文中,我们将探讨如何使用Selenium和数据库结合起来,有效地从表格中获取数据。

之一步:打开网页

最初,我们需要使用Selenium打开一个网页。我们可使用Python API和web驱动程序来做到这一点。例如,对于Chrome浏览器,我们可以使用ChromeDriver。

下面是一段用Python来打开谷歌浏览器网站的例子:

“`

from selenium import webdriver

driver = webdriver.Chrome(“/usr/lib/chromium-browser/chromedriver”)

driver.get(“https://www.google.com/”)

“`

你将需要手动安装ChromeDriver,以便在上面的代码中使用它。如果已经安装了,请确保指定了正确的路径。

第二步:定位数据表格

一旦网页被加载进来,我们就需要定位表格,从而能够提取数据。对此,我们可以使用Selenium提供的不同方式。

例如,如果表格带有唯一的id,您可以使用find_element_by_id()和它的标识符,如下所示:

“`

table_element = driver.find_element_by_id(“mytable”)

“`

如果表格没有id,但带有唯一的类,可以使用find_element_by_class_name()和类名来定位表格:

“`

table_element = driver.find_element_by_class_name(“mytableclass”)

“`

第三步:提取数据

在确定表格位置后,接下来需要从表格中提取数据了。虽然有多种方法可以做到这一点,但使用Pandas库是最简单的。

您需要使用Selenium提供的方法将数据提取到Pandas中。这可以通过以下方式实现:

“`

import pandas as pd

table_html = table_element.get_attribute(‘outerHTML’)

df = pd.read_html(table_html)[0]

“`

这将使Selenium将表格HTML提取并将其放入变量table_html中。然后,Pandas使用这个HTML把表格转换为数据框对象df。

最终,您可以将数据存储到数据库中。在本例中,我们将使用SQLite数据库。

要使用Python的内置sqlite3模块连接到数据库:

“`

import sqlite3

conn = sqlite3.connect(‘mydb.sqlite’)

“`

随后,将Pandas数据框对象导出到数据库中:

“`

df.to_sql(‘mytable’, con=conn, if_exists=’replace’)

“`

这将创建一个名为“mytable”的表,其中包含从网页中提取的数据。

使用Selenium和数据库结合,可以非常轻松地从表格中提取数据。通过Pandas将网页中的表格数据导入到数据库中,您可以轻松地进行分析、可视化和提取调用。而通过使用Selenium作为Web自动化测试框架,可节省时间和精力,让方法变得更加高效。

相关问题拓展阅读:

  • instrumentation test 什么时候调用setup teardown
  • Python中的爬虫框架有哪些呢?

instrumentation test 什么时候调用setup teardown

这个问题出现在这种情况,你的每个testCase都需要使用某一种初始化比较耗时的对象(资源),举例如数据枯神库连接、Spring Context。我们遇到的问题是Selenium测试中开启和关闭浏览器,如果一个test启动关闭(我们的程序还需要登录和注销),这样测试的时间会 拖的很长,给持续集成带来了困难。

所以,我们需要在每组不会冲突的test中间共享一个浏览器窗口,这样也就需要一个全局的setUp和 tearDown。问题是JUnit 3.8.1里面的setUp和tearDown是在每个test之前和之后运行的,如果在里面初始化没隐亏和关闭浏览器就会造成上面所说的问题。要解决它,就产 生了如下3种思路:

1、升级,使用JUnit4

JUnit4从TestNG里面吸取了两个注释:@BeforeClass和 @AfterClass

用它们注释过的方法就会只初始化一次,完全符合我们的需求。

public class SeleniumTestCase extends SeleneseTestCase4 {

protected static final Log log = LogFactory.getLog(SeleniumTestCase.class);

protected static Selenium selenium = null;

@BeforeClass

public static void startSelenium() throws Exception {

log.debug(“Starting Selenium”);

selenium = SeleniumSession.getCurrentSession().getSelenium();

}

@AfterClass

public static void stopSelenium() throws Exception {

log.debug(“Stoping Selenium”);

selenium.stop();

}

}

这个里面的selenium = SeleniumSession.getCurrentSession().getSelenium();其实是个singleton,之一次open new,后来就直接返回selenium的instance(具体参考其它文章)。

这样做非常舒服,因为完全不是Trick,而是新的 feature,用起来踏实。这样,这个类的所有@Test就会公用一个selenium打开的浏览器了。

那么缺点是什么呢?缺点是放到CI环境 的时候如果使用我们习惯的Ant写执行脚本的话必须将Ant升级到1.7Beta3,因为Ant 1.6.5的Junit task不支持JUnit4……当然升级并不会带来代码的变化,但是问题在于Ant 1.7还是Beta,而且JUnit4需要JDK5的Annotation,你的PM估计要撇嘴了

2、JVM级别钩子法

因为JVM支持关闭时执行制定代码的钩子,而static代码会在类初始化时执行, 再加上Ant调用的是类似命令行的java命令,实际上每一个测试运行在一个完整的JVM启动关闭周期携扰里面,所以也就产生了这种解决方案。

这个方 案来自taowen同学的两则Selenium经验。

代码我恢复了一下,大概是这样:

public abstract class SomeTestCase extends TestCase {

static {

// perform the “global” set up logic

//这里的代码会在类初始化时执行,所以相当于BeforeClass

log.debug(“Starting Selenium”);

selenium = SeleniumSession.getCurrentSession().getSelenium();

// and now register the shutdown hook for tear down logic

//将一个匿名方法写到这里,就相当于AfterClass

//给当前的进程注册一个清理线程,当进程退出的时候,会执行线程中的代 码。

Runtime.getRuntime().addShutdownHook(

new Thread(){

public void run() {

log.debug(“Stoping Selenium”);

selenium.stop();

}

}

);

}

}

这 个方法挺酷的,我认为完全可以被称作“奇技淫巧”。缺点就是,有点不好看。

3、还有别的方法,这个来自Selenium网站,似乎是不错 的中庸方案。

import junit.framework.*;

import junit.extensions.TestSetup;

public class AllTestsOneTimeSetup {

public static Test suite() {

TestSuite suite = new TestSuite();

suite.addTest(SomeTest.suite());

suite.addTest(AnotherTest.suite());

TestSetup wrapper = new TestSetup(suite) {

protected void setUp() {

oneTimeSetUp();

}

protected void tearDown() {

oneTimeTearDown();

}

};

return wrapper;

}

public static void oneTimeSetUp() {

// one-time initialization code

}

public static void oneTimeTearDown() {

// one-time cleanup code

}

}

Python中的爬虫框架有哪些呢?

实现爬虫技术的编程环境有很多种,Java、Python、C++等都可以用来爬虫。但很多人选择Python来写爬虫,为什么呢?因为Python确实很适合做爬虫,丰富的第三方库十分强大,简单几行代码便可实现你想要的功能。更重要的,Python也是数据挖掘和分析的好能手。那么,Python爬虫一般用什么框架比较好?

一般来讲,只有在遇到比较大型的需求时,才会使用Python爬虫框架。这样的做的主要目的,是为了方便管理以及扩展。本文我将向大家推荐十个Python爬虫框架。

1、Scrapy:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可桐搜晌以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。它是很强大的爬虫框架,可以满足简单的页面爬取,比如可以明确获知url pattern的情况。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。它的特性有:HTML, XML源数据 选择及提取 的内置支持;提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders),对智能处理爬取数据提供了内置支持。

2、Crawley:高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为ON、XML等。

3、Portia:是一个开源可视化爬虫工具,可让使用者在不需要任何编程知识的情况下爬取网站!简单地注释自己感兴趣的页面,Portia将创建一个蜘蛛来从类似的页面提取数据。简单来讲,它是基于scrapy内核;可视化爬取内容,不需要任何开发专业知识;动态匹配相同模板的内容。

4、newspaper:可以用来提取新闻、文章和内容分析。使用多线程,支持10多种语言等。作者从requests库的简洁与强大得到灵感,使用Python开发的可用于提取文章内容的程序。支持10多种语言并且所有的都是unicode编码。

5、Python-goose:Java写的文章提取工具。Python-goose框架可提取的信息包括:文章主体内容、文章主要图片、文章中嵌入的任何Youtube/Vimeo视频、元描述、元标签。

6、Beautiful Soup:名气大,整合了一些常用爬虫需求。它是一个可以从HTML或XML文件中提取漏蚂数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。Beautiful Soup的缺点是不能加载。

7、mechanize:它的优点是可以加载。当然它也有缺点,比如文档严重缺失。不过通过官方的example以及人肉尝试的方法,还是勉强能用的。

8、selenium:这是一个调用浏览器的driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。Selenium是自动化测试工具,它支持各种浏览器,包括 Chrome,Safari,Firefox等主流界面式浏览器,如果在这些浏览器里面安装一个 Selenium 的插件,可以方便地实现Web界面的测试. Selenium支持浏览器驱动。Selenium支持多种语言开发,比如 Java,C,Ruby等等,Phantom 用来渲染解析,Selenium 用来驱动以及与Python的对接,Python进行后期的处理。

9、cola:是一个分布式的爬虫框架,对于用户来说,只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。项目整体设计有点糟,模块间耦合度较高。

10、PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果局锋查看器。Python脚本控制,可以用任何你喜欢的html解析包。

selenium 获取表格数据库的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于selenium 获取表格数据库,Selenium与数据库:有效获取表格数据,instrumentation test 什么时候调用setup teardown,Python中的爬虫框架有哪些呢?的信息别忘了在本站进行查找喔。

香港服务器首选树叶云,2H2G首月10元开通。
树叶云(shuyeidc.com)提供简单好用,价格厚道的香港/美国云服务器和独立服务器。IDC+ISP+ICP资质。ARIN和APNIC会员。成熟技术团队15年行业经验。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/269231.html<

(0)
运维的头像运维
上一篇2025-05-07 06:20
下一篇 2025-05-07 06:21

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注