网页元素抓取
Ⅰ 如何 获取网页元素的xpath
1. 利用Selenium IDE
我们可以通过firefox添加插件Selenium IDE并开启。当点击红色的录制按钮后,我们对网页进行操作后,该工具会录制所有的行为并转化为selenium命令,当然也就包含有了locator。
方法优点:简单、方便
方法不足:对于一些复杂点的行为可能会漏掉,因此也就无法捕获相应的locator;此外locator是自动获取的,可能不是很直观,另外无法得到统一样式的locator。
2. 利用Firebug
同样firefox的插件中可以添加firebug。在Tools->Web Developer->Firebug中打开Firebug,于是能够看到页面的下半部分有显示Firebug窗口,可以查看html,CSS等。因为了解的粗浅,所以只能说说知道的几点简单功能。
如果我们需要查看页面某个元素的locator,可以鼠标右击,选择Inspect Element with Firebug, 于是就到了元素对应的html源码位置。这样我们根据这部分源码来写locator。
但是,往往对于一些element如button等,右击后没有反应时,我们可以考虑选择它们旁边的元素进行,到源码后再通过查找其兄弟元素源码或者上一层来找到相应源码。这里主要根据是当我们鼠标放在以某tag为根节点的源码的上时,上面的页面对应的界面元素会有相应标记。
方法缺点:写出的locator可能并不是页面的唯一,这样selenium运行就难以识别
Ⅱ 求一款网页中页面元素的抓取软件
可用WEBZIP软件,可离线浏览也可以下载整个网站的所有资料
Ⅲ 网页上审查元素提取一段完整网页代码
您好,首来先你要获取到你要看的自某个元素的对象,然后 元素对象.读文本属性 (“outerHTML”, ) 就可以获取到代码了。
第一种:
网页内容 = 到文本(HTTP读文件("http://www..com"))
调试输出(网页内容)
第二种:
使用超文本浏览器填表方式取源码。
Ⅳ 易语言怎样提取网页元素
网络搜:“网业元素提取工具”。名字我忘了,不过这种工具很多,网络搜索就有的。
Ⅳ 网页元素抓取的问题
内面就一个JS包导入一个FLASH
http://www.lambowolf.com/gg/images/portal_flash.js
你下载下来看就明白了。
这个是FLash的地址http://www.lambowolf.com/focus2.swf
这些是切换图片和链接
imgUrl1="gg/images/ba1.jpg";
imgtext1="11"
imgLink1=escape("http://www.lambowolf.com/");
//imgLink1="";
imgUrl2="gg/images/ba2.jpg";
imgtext2="22"
imgLink2=escape("http://www.lambowolf.com/");
//imgLink2="";
imgUrl3="gg/images/ba1.jpg";
imgtext3="33"
imgLink3=escape("http://www.lambowolf.com/");
//imgLink3="";
imgUrl4="gg/images/ba2.jpg";
imgtext4="44"
imgLink4=escape("http://www.lambowolf.com/");
//imgLink4="";
Ⅵ 【高分】怎么提取网页游戏中的的元素。
部分的flash游戏可以从网页的缓存里找到,例如以下是使用IE取缓存的步骤:
1.打开缓存文件夹:
在IE的菜单栏上点击“工具” - “Internet 选项”,在“常规”栏的 “浏览历史记录”项,点击“设置”,弹出“Internet临时文件和历史记录设置”,点击“查看文件”按钮,打开缓存文件夹。
2.保存缓存数据:
然后打开你要缓存的网站,等网站加载完毕后,在缓存文件夹右键刷新,然后右键排列图标 - 按“internet地址”排列,找到你缓冲的那个网站的网址,然后全部复制出来,放在你的电脑任意一个地方。
3.提取动画资源:
swf文件(flash)的图片资源你可以下载一个“闪客精灵”来提取,或者用闪客精灵的反编译功能输出fla文件后使用adobe flash软件工具来编辑。
Ⅶ 如何提取网页中指定元素
我是这样实现的,用对象枚举网页图片,得到图片名后,在临时文件夹中提取图片!
参考网页应用类做的,不知有没有更好的方法。
.版本 2
WebDoc1 = Webdoc.读对象型属性 (“body”, ).读对象型属性 (“all”, )
临时对象 = WebDoc1.对象型方法 (“tags”, “img”)
.计次循环首 (临时对象.读数值属性 (“length”, ), 计次)
临时容器 = 临时对象.对象型方法 (“item”, 计次 - 1).读文本属性 (“src”, )
a = 到小写 (取文本右边 (临时容器, 4))
.如果真 (a = “.jpg” 或 a = “.bmp”)
加入成员 (地址数组, 临时容器)
.如果真结束
.计次循环尾 ()
返回 (取数组成员数 (地址数组) ≠ 0)
得到文件名后,寻找IE的临时文件夹
用 SHGetSpecialFolderLocation 和 SHGetPathFromIDList
可得到IE的临时文件夹路径