Selenium是一个广泛使用的自动化测试框架,主要用于Web应用程序测试。然而,Selenium的应用领域不仅仅限于测试,它也可以被用来抽取或提取一个或多个网页上的数据。而在这个过程中,数据库的应用也变得非常重要。
在此文中,我们将探讨如何使用Selenium和数据库结合起来,有效地从表格中获取数据。
之一步:打开网页
最初,我们需要使用Selenium打开一个网页。我们可使用Python API和web驱动程序来做到这一点。例如,对于Chrome浏览器,我们可以使用ChromeDriver。
下面是一段用Python来打开谷歌浏览器网站的例子:
“`
from selenium import webdriver
driver = webdriver.Chrome(“/usr/lib/chromium-browser/chromedriver”)
driver.get(“https://www.google.com/”)
“`
你将需要手动安装ChromeDriver,以便在上面的代码中使用它。如果已经安装了,请确保指定了正确的路径。
第二步:定位数据表格
一旦网页被加载进来,我们就需要定位表格,从而能够提取数据。对此,我们可以使用Selenium提供的不同方式。
例如,如果表格带有唯一的id,您可以使用find_element_by_id()和它的标识符,如下所示:
“`
table_element = driver.find_element_by_id(“mytable”)
“`
如果表格没有id,但带有唯一的类,可以使用find_element_by_class_name()和类名来定位表格:
“`
table_element = driver.find_element_by_class_name(“mytableclass”)
“`
第三步:提取数据
在确定表格位置后,接下来需要从表格中提取数据了。虽然有多种方法可以做到这一点,但使用Pandas库是最简单的。
您需要使用Selenium提供的方法将数据提取到Pandas中。这可以通过以下方式实现:
“`
import pandas as pd
table_html = table_element.get_attribute(‘outerHTML’)
df = pd.read_html(table_html)[0]
“`
这将使Selenium将表格HTML提取并将其放入变量table_html中。然后,Pandas使用这个HTML把表格转换为数据框对象df。
最终,您可以将数据存储到数据库中。在本例中,我们将使用SQLite数据库。
要使用Python的内置sqlite3模块连接到数据库:
“`
import sqlite3
conn = sqlite3.connect(‘mydb.sqlite’)
“`
随后,将Pandas数据框对象导出到数据库中:
“`
df.to_sql(‘mytable’, con=conn, if_exists=’replace’)
“`
这将创建一个名为“mytable”的表,其中包含从网页中提取的数据。
使用Selenium和数据库结合,可以非常轻松地从表格中提取数据。通过Pandas将网页中的表格数据导入到数据库中,您可以轻松地进行分析、可视化和提取调用。而通过使用Selenium作为Web自动化测试框架,可节省时间和精力,让方法变得更加高效。
相关问题拓展阅读:
- instrumentation test 什么时候调用setup teardown
- Python中的爬虫框架有哪些呢?
instrumentation test 什么时候调用setup teardown
这个问题出现在这种情况,你的每个testCase都需要使用某一种初始化比较耗时的对象(资源),举例如数据枯神库连接、Spring Context。我们遇到的问题是Selenium测试中开启和关闭浏览器,如果一个test启动关闭(我们的程序还需要登录和注销),这样测试的时间会 拖的很长,给持续集成带来了困难。
所以,我们需要在每组不会冲突的test中间共享一个浏览器窗口,这样也就需要一个全局的setUp和 tearDown。问题是JUnit 3.8.1里面的setUp和tearDown是在每个test之前和之后运行的,如果在里面初始化没隐亏和关闭浏览器就会造成上面所说的问题。要解决它,就产 生了如下3种思路:
1、升级,使用JUnit4
JUnit4从TestNG里面吸取了两个注释:@BeforeClass和 @AfterClass
用它们注释过的方法就会只初始化一次,完全符合我们的需求。
public class SeleniumTestCase extends SeleneseTestCase4 {
protected static final Log log = LogFactory.getLog(SeleniumTestCase.class);
protected static Selenium selenium = null;
@BeforeClass
public static void startSelenium() throws Exception {
log.debug(“Starting Selenium”);
selenium = SeleniumSession.getCurrentSession().getSelenium();
}
@AfterClass
public static void stopSelenium() throws Exception {
log.debug(“Stoping Selenium”);
selenium.stop();
}
}
这个里面的selenium = SeleniumSession.getCurrentSession().getSelenium();其实是个singleton,之一次open new,后来就直接返回selenium的instance(具体参考其它文章)。
这样做非常舒服,因为完全不是Trick,而是新的 feature,用起来踏实。这样,这个类的所有@Test就会公用一个selenium打开的浏览器了。
那么缺点是什么呢?缺点是放到CI环境 的时候如果使用我们习惯的Ant写执行脚本的话必须将Ant升级到1.7Beta3,因为Ant 1.6.5的Junit task不支持JUnit4……当然升级并不会带来代码的变化,但是问题在于Ant 1.7还是Beta,而且JUnit4需要JDK5的Annotation,你的PM估计要撇嘴了
2、JVM级别钩子法
因为JVM支持关闭时执行制定代码的钩子,而static代码会在类初始化时执行, 再加上Ant调用的是类似命令行的java命令,实际上每一个测试运行在一个完整的JVM启动关闭周期携扰里面,所以也就产生了这种解决方案。
这个方 案来自taowen同学的两则Selenium经验。
代码我恢复了一下,大概是这样:
public abstract class SomeTestCase extends TestCase {
static {
// perform the “global” set up logic
//这里的代码会在类初始化时执行,所以相当于BeforeClass
log.debug(“Starting Selenium”);
selenium = SeleniumSession.getCurrentSession().getSelenium();
// and now register the shutdown hook for tear down logic
//将一个匿名方法写到这里,就相当于AfterClass
//给当前的进程注册一个清理线程,当进程退出的时候,会执行线程中的代 码。
Runtime.getRuntime().addShutdownHook(
new Thread(){
public void run() {
log.debug(“Stoping Selenium”);
selenium.stop();
}
}
);
}
}
这 个方法挺酷的,我认为完全可以被称作“奇技淫巧”。缺点就是,有点不好看。
3、还有别的方法,这个来自Selenium网站,似乎是不错 的中庸方案。
import junit.framework.*;
import junit.extensions.TestSetup;
public class AllTestsOneTimeSetup {
public static Test suite() {
TestSuite suite = new TestSuite();
suite.addTest(SomeTest.suite());
suite.addTest(AnotherTest.suite());
TestSetup wrapper = new TestSetup(suite) {
protected void setUp() {
oneTimeSetUp();
}
protected void tearDown() {
oneTimeTearDown();
}
};
return wrapper;
}
public static void oneTimeSetUp() {
// one-time initialization code
}
public static void oneTimeTearDown() {
// one-time cleanup code
}
}
Python中的爬虫框架有哪些呢?
实现爬虫技术的编程环境有很多种,Java、Python、C++等都可以用来爬虫。但很多人选择Python来写爬虫,为什么呢?因为Python确实很适合做爬虫,丰富的第三方库十分强大,简单几行代码便可实现你想要的功能。更重要的,Python也是数据挖掘和分析的好能手。那么,Python爬虫一般用什么框架比较好?
一般来讲,只有在遇到比较大型的需求时,才会使用Python爬虫框架。这样的做的主要目的,是为了方便管理以及扩展。本文我将向大家推荐十个Python爬虫框架。
1、Scrapy:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可桐搜晌以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。它是很强大的爬虫框架,可以满足简单的页面爬取,比如可以明确获知url pattern的情况。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。它的特性有:HTML, XML源数据 选择及提取 的内置支持;提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders),对智能处理爬取数据提供了内置支持。
2、Crawley:高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为ON、XML等。
3、Portia:是一个开源可视化爬虫工具,可让使用者在不需要任何编程知识的情况下爬取网站!简单地注释自己感兴趣的页面,Portia将创建一个蜘蛛来从类似的页面提取数据。简单来讲,它是基于scrapy内核;可视化爬取内容,不需要任何开发专业知识;动态匹配相同模板的内容。
4、newspaper:可以用来提取新闻、文章和内容分析。使用多线程,支持10多种语言等。作者从requests库的简洁与强大得到灵感,使用Python开发的可用于提取文章内容的程序。支持10多种语言并且所有的都是unicode编码。
5、Python-goose:Java写的文章提取工具。Python-goose框架可提取的信息包括:文章主体内容、文章主要图片、文章中嵌入的任何Youtube/Vimeo视频、元描述、元标签。
6、Beautiful Soup:名气大,整合了一些常用爬虫需求。它是一个可以从HTML或XML文件中提取漏蚂数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。Beautiful Soup的缺点是不能加载。
7、mechanize:它的优点是可以加载。当然它也有缺点,比如文档严重缺失。不过通过官方的example以及人肉尝试的方法,还是勉强能用的。
8、selenium:这是一个调用浏览器的driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。Selenium是自动化测试工具,它支持各种浏览器,包括 Chrome,Safari,Firefox等主流界面式浏览器,如果在这些浏览器里面安装一个 Selenium 的插件,可以方便地实现Web界面的测试. Selenium支持浏览器驱动。Selenium支持多种语言开发,比如 Java,C,Ruby等等,Phantom 用来渲染解析,Selenium 用来驱动以及与Python的对接,Python进行后期的处理。
9、cola:是一个分布式的爬虫框架,对于用户来说,只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。项目整体设计有点糟,模块间耦合度较高。
10、PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果局锋查看器。Python脚本控制,可以用任何你喜欢的html解析包。
selenium 获取表格数据库的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于selenium 获取表格数据库,Selenium与数据库:有效获取表格数据,instrumentation test 什么时候调用setup teardown,Python中的爬虫框架有哪些呢?的信息别忘了在本站进行查找喔。