Selenium与数据库：有效获取表格数据 (selenium 获取表格数据库)

数据运维 2023-08-11 醒在深海的猫手机阅读

Selenium是一个广泛使用的自动化测试框架，主要用于Web应用程序测试。然而，Selenium的应用领域不仅仅限于测试，它也可以被用来抽取或提取一个或多个网页上的数据。而在这个过程中，数据库的应用也变得非常重要。

在此文中，我们将探讨如何使用Selenium和数据库结合起来，有效地从表格中获取数据。

之一步：打开网页

最初，我们需要使用Selenium打开一个网页。我们可使用Python API和web驱动程序来做到这一点。例如，对于Chrome浏览器，我们可以使用ChromeDriver。

下面是一段用Python来打开谷歌浏览器网站的例子：

“`

from selenium import webdriver

driver = webdriver.Chrome(“/usr/lib/chromium-browser/chromedriver”)

driver.get(“https://www.google.com/”)

“`

你将需要手动安装ChromeDriver，以便在上面的代码中使用它。如果已经安装了，请确保指定了正确的路径。

第二步：定位数据表格

一旦网页被加载进来，我们就需要定位表格，从而能够提取数据。对此，我们可以使用Selenium提供的不同方式。

例如，如果表格带有唯一的id，您可以使用find_element_by_id（）和它的标识符，如下所示：

“`

table_element = driver.find_element_by_id(“mytable”)

“`

如果表格没有id，但带有唯一的类，可以使用find_element_by_class_name（）和类名来定位表格：

“`

table_element = driver.find_element_by_class_name(“mytableclass”)

“`

第三步：提取数据

在确定表格位置后，接下来需要从表格中提取数据了。虽然有多种方法可以做到这一点，但使用Pandas库是最简单的。

您需要使用Selenium提供的方法将数据提取到Pandas中。这可以通过以下方式实现：

“`

import pandas as pd

table_html = table_element.get_attribute(‘outerHTML’)

df = pd.read_html(table_html)[0]

“`

这将使Selenium将表格HTML提取并将其放入变量table_html中。然后，Pandas使用这个HTML把表格转换为数据框对象df。

最终，您可以将数据存储到数据库中。在本例中，我们将使用SQLite数据库。

要使用Python的内置sqlite3模块连接到数据库：

“`

import sqlite3

conn = sqlite3.connect(‘mydb.sqlite’)

“`

随后，将Pandas数据框对象导出到数据库中：

“`

df.to_sql(‘mytable’, con=conn, if_exists=’replace’)

“`

这将创建一个名为“mytable”的表，其中包含从网页中提取的数据。

使用Selenium和数据库结合，可以非常轻松地从表格中提取数据。通过Pandas将网页中的表格数据导入到数据库中，您可以轻松地进行分析、可视化和提取调用。而通过使用Selenium作为Web自动化测试框架，可节省时间和精力，让方法变得更加高效。

instrumentation test 什么时候调用setup teardown

这个问题出现在这种情况，你的每个testCase都需要使用某一种初始化比较耗时的对象（资源），举例如数据枯神库连接、Spring Context。我们遇到的问题是Selenium测试中开启和关闭浏览器，如果一个test启动关闭（我们的程序还需要登录和注销），这样测试的时间会拖的很长，给持续集成带来了困难。

所以，我们需要在每组不会冲突的test中间共享一个浏览器窗口，这样也就需要一个全局的setUp和 tearDown。问题是JUnit 3.8.1里面的setUp和tearDown是在每个test之前和之后运行的，如果在里面初始化没隐亏和关闭浏览器就会造成上面所说的问题。要解决它，就产生了如下3种思路：

1、升级，使用JUnit4

JUnit4从TestNG里面吸取了两个注释：@BeforeClass和 @AfterClass

用它们注释过的方法就会只初始化一次，完全符合我们的需求。

public class SeleniumTestCase extends SeleneseTestCase4 {

protected static final Log log = LogFactory.getLog(SeleniumTestCase.class);

protected static Selenium selenium = null;

@BeforeClass

public static void startSelenium() throws Exception {

log.debug(“Starting Selenium”);

selenium = SeleniumSession.getCurrentSession().getSelenium();

}

@AfterClass

public static void stopSelenium() throws Exception {

log.debug(“Stoping Selenium”);

selenium.stop();

}

这个里面的selenium = SeleniumSession.getCurrentSession().getSelenium();其实是个singleton，之一次open new，后来就直接返回selenium的instance（具体参考其它文章）。

这样做非常舒服，因为完全不是Trick，而是新的 feature，用起来踏实。这样，这个类的所有@Test就会公用一个selenium打开的浏览器了。

那么缺点是什么呢？缺点是放到CI环境的时候如果使用我们习惯的Ant写执行脚本的话必须将Ant升级到1.7Beta3，因为Ant 1.6.5的Junit task不支持JUnit4……当然升级并不会带来代码的变化，但是问题在于Ant 1.7还是Beta，而且JUnit4需要JDK5的Annotation，你的PM估计要撇嘴了

2、JVM级别钩子法

因为JVM支持关闭时执行制定代码的钩子，而static代码会在类初始化时执行，再加上Ant调用的是类似命令行的java命令，实际上每一个测试运行在一个完整的JVM启动关闭周期携扰里面，所以也就产生了这种解决方案。

这个方案来自taowen同学的两则Selenium经验。

代码我恢复了一下，大概是这样：

public abstract class SomeTestCase extends TestCase {

static {

// perform the “global” set up logic

//这里的代码会在类初始化时执行，所以相当于BeforeClass

log.debug(“Starting Selenium”);

selenium = SeleniumSession.getCurrentSession().getSelenium();

// and now register the shutdown hook for tear down logic

//将一个匿名方法写到这里，就相当于AfterClass

//给当前的进程注册一个清理线程，当进程退出的时候，会执行线程中的代码。

Runtime.getRuntime().addShutdownHook(

new Thread(){

public void run() {

log.debug(“Stoping Selenium”);

selenium.stop();

}

);

}

这个方法挺酷的，我认为完全可以被称作“奇技淫巧”。缺点就是，有点不好看。

3、还有别的方法，这个来自Selenium网站，似乎是不错的中庸方案。

import junit.framework.*;

import junit.extensions.TestSetup;

public class AllTestsOneTimeSetup {

public static Test suite() {

TestSuite suite = new TestSuite();

suite.addTest(SomeTest.suite());

suite.addTest(AnotherTest.suite());

TestSetup wrapper = new TestSetup(suite) {

protected void setUp() {

oneTimeSetUp();

}

protected void tearDown() {

oneTimeTearDown();

}

};

return wrapper;

}

public static void oneTimeSetUp() {

// one-time initialization code

}

public static void oneTimeTearDown() {

// one-time cleanup code

}

Python中的爬虫框架有哪些呢？

实现爬虫技术的编程环境有很多种，Java、Python、C++等都可以用来爬虫。但很多人选择Python来写爬虫，为什么呢？因为Python确实很适合做爬虫，丰富的第三方库十分强大，简单几行代码便可实现你想要的功能。更重要的，Python也是数据挖掘和分析的好能手。那么，Python爬虫一般用什么框架比较好？

一般来讲，只有在遇到比较大型的需求时，才会使用Python爬虫框架。这样的做的主要目的，是为了方便管理以及扩展。本文我将向大家推荐十个Python爬虫框架。

1、Scrapy：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可桐搜晌以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。它是很强大的爬虫框架，可以满足简单的页面爬取，比如可以明确获知url pattern的情况。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。它的特性有：HTML, XML源数据选择及提取的内置支持；提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders)，对智能处理爬取数据提供了内置支持。

2、Crawley：高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为ON、XML等。

3、Portia：是一个开源可视化爬虫工具，可让使用者在不需要任何编程知识的情况下爬取网站！简单地注释自己感兴趣的页面，Portia将创建一个蜘蛛来从类似的页面提取数据。简单来讲，它是基于scrapy内核；可视化爬取内容，不需要任何开发专业知识；动态匹配相同模板的内容。

4、newspaper：可以用来提取新闻、文章和内容分析。使用多线程，支持10多种语言等。作者从requests库的简洁与强大得到灵感，使用Python开发的可用于提取文章内容的程序。支持10多种语言并且所有的都是unicode编码。

5、Python-goose：Java写的文章提取工具。Python-goose框架可提取的信息包括：文章主体内容、文章主要图片、文章中嵌入的任何Youtube/Vimeo视频、元描述、元标签。

6、Beautiful Soup：名气大，整合了一些常用爬虫需求。它是一个可以从HTML或XML文件中提取漏蚂数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。Beautiful Soup的缺点是不能加载。

7、mechanize：它的优点是可以加载。当然它也有缺点，比如文档严重缺失。不过通过官方的example以及人肉尝试的方法，还是勉强能用的。

8、selenium：这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。Selenium是自动化测试工具，它支持各种浏览器，包括 Chrome，Safari，Firefox等主流界面式浏览器，如果在这些浏览器里面安装一个 Selenium 的插件，可以方便地实现Web界面的测试. Selenium支持浏览器驱动。Selenium支持多种语言开发，比如 Java，C，Ruby等等，Phantom 用来渲染解析，Selenium 用来驱动以及与Python的对接，Python进行后期的处理。

9、cola：是一个分布式的爬虫框架，对于用户来说，只需编写几个特定的函数，而无需关注分布式运行的细节。任务会自动分配到多台机器上，整个过程对用户是透明的。项目整体设计有点糟，模块间耦合度较高。

10、PySpider：一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写，分布式架构，支持多种数据库后端，强大的WebUI支持脚本编辑器，任务监视器，项目管理器以及结果局锋查看器。Python脚本控制，可以用任何你喜欢的html解析包。

selenium 获取表格数据库的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于selenium 获取表格数据库,Selenium与数据库：有效获取表格数据,instrumentation test 什么时候调用setup teardown,Python中的爬虫框架有哪些呢？的信息别忘了在本站进行查找喔。