第 6 章 用 Python 刺探网络
使用 Mechanize 库上网
Mechanize 中的主要类(Browser)允许我们对浏览器中的任何内容进行操作。
import mechanize
def view_page(url):
browser = mechanize.Browser()
page = browser.open(url)
source_code = page.read()
print(source_code)
view_page("http://www.syngress.com/")Mechanize 提供了状态化编程(stateful programming)和方便的 HTML 表单填写,便于解析和处理诸如 “HTTP-Equiv” 和刷新之类的命令。此外,它还自带了不少能让你保持匿名状态的函数。
匿名性——使用代理服务器、User-Agent 及 Cookie
网站有多种方法能够唯一标识网页的访问者。Web 服务器记录发起网页请求的 IP 是标识用户的第一种方式。Python 也可以连接代理服务器,这能给程序增加匿名性。Mechanize 的 Browser 类中有一个属性,即程序能用它指定一个代理服务器。MyCurdy 在 http://rmccurdy.com/scripts/proxy/good.txt 中维护着一个可用代理的列表。
import mechanize
def test_proxy(url, proxy):
browser = mechanize.Browser()
browser.set_proxies(proxy)
page = browser.open(url)
source_code = page.read()
print(source_code)
url = "http://ip.nefsc.noaa.gov/"
hide_me_proxy = {"http": "216.155.139.115:3128"}
test_proxy(url, hide_me_proxy)浏览器现在有一层匿名性了,但网站还会使用浏览器提供的 user-agent 字符串作为唯一标识用户的另一种方法。在正常情况下,user-agent 字符串可以让网站获知用户使用的是哪种浏览器这一重要信息,同时这个字段还记录了内核版本、浏览器版本,以及其他一些关于用户的详细信息。恶意网站利用这些信息根据不同的浏览器版本发送不同的漏洞利用代码,而其他一些网站则利用这些信息区分那些躲在 NAT 后面的局域网里的永不。
Mechanize 能像添加代理那样,轻松修改 user-agent,网站 提供了大量有效的 user-agent 字符串。
网站还会给 Web 浏览器发送 cookie,cookie 中记录了一些能唯一标识用户的信息,网站用它来验证用户之前是否访问/登录过该网站。为了防止这种情况发生,在执行匿名操作之前一定要清除浏览器中的 cookie。有一个库名为 cookielib,其中含有几个不同的能用来处理 cookie 的容器。这里使用的是一个能把各个不同的 cookie 保存到磁盘中的容器。该功能允许用户在收到 cookie 之后,不必把它返回给网站,并能查看其中的内容
把代码集成在 Python 类的 AnonBrowser 中
anoymize 函数还有一个能让进程休眠 60s 的参数,这会增加使用了匿名化方法前后两次请求在服务器日志中出现的时间间隔
用 AnonBrowser 抓取更多的 Web 页面
用 Beautiful Soup 解析 href 链接
若要把目标网页上的链接全都分析出来,有两种选择:一种是使用正则表达式对 HTML 代码做搜索和替换操作,另一种是使用一款名为 BeautifulSoup 的强大的第三方库。
用 BeautifulSoup 映射图像
BeautifulSoup 允许我们能在任何 HTML 对象中找出所有的 “IMG” 标签,然后 browser 对象就能下载图片,并将其以二进制文件的形式保存到本地硬盘中。
研究、调查、发现
用 Python 与谷歌 API 交互
谷歌提供了一个应用程序编程接口(API),它让程序员能执行查询操作,获取结果,而不必使用和精通“正常”的谷歌页面。目前谷歌有两个 API,一个简化版的和一个完整版的,使用完整版的 API 需要拥有开发者密钥。简化版的 API 每天仍能进行相当数量的查询,每次搜索能得到约 30 个结果。
响应的数据是 JSON 格式的
来编写一个不带任何额外方法的类保存数据,这将使访问各个字段变得更加容易,而不必专门为获取信息而特意去临时解析三层词典。
用 Python 解析 Tweets 个人主页
和谷歌一样,Twitter 也给开发者提供了 API。相关文档位于网址
从推文中提取地理位置信息
许多 Twitter 用户遵循一个公式来撰写他们的推文与世界分享。通常情况下,这个公式为:【该推文是直接推给哪些推特用户的】+【推文的正文,其中常会含有简短的 URL】+【hash 标签】。使用恶意的分割法时,这个公式应该写成:【关注该用户的人,他们信任来自该用户的通信的概率会比较大】+【这个人感兴趣的链接或主题,他可能会对该话题中的其他内容感兴趣】+【这个人可能想要进一步了解的大致方向或主题】。
用正则表达式解析 Twitter 用户的兴趣爱好
由于推文的字数限制,大多数 URL 会使用各个服务商提供的短网址。这些链接里没什么信息量,因为他们可以指向任何地址。为了把短网址转成正常的 URL,可以用 urllib2 打开它们,在脚本打开页面后,urllib 可以获取到完整的 URL
匿名电子邮件
相对于获取一个永久性电子邮箱,使用一次性电子邮箱也是另一个很好的选项。Ten Minute Mail 提供的就是这样一种一次性电子邮箱。攻击者可以使用这种很难被追踪的电子邮件账户去创建社交网站账号。
批量社工
使用 smtplib 给目标对象发邮件
正常发送邮件的过程包括打开邮件客户端,单击相应的选项,然后单击新建,最后单击发送。在电脑屏幕后,邮件客户端程序会连接到服务器,有时还需要登录,并提交详细的信息——发件人、收件人和其他必要的数据。
不过许多电子邮件服务器是不允许转发邮件的,所以只能将邮件传递到指定的地址。本地电子邮件服务器可以被设为允许转发邮件,或允许转发来自网上的邮件,这是它会把来自任意地址的电子邮件转发的任意地址中——即使邮件地址的格式都不对也没关系。伪造发信地址是关键,使用邮件客户端脚本,再加上一个允许转发邮件的服务器。
用 smtplib 进行网络钓鱼
为了降低被识破的概率,只生成一段非常简单的含有恶意代码的文本,把它作为邮件的正文。程序会根据它所拥有的数据,随机生成文本。具体步骤是:选择一个虚拟的发信人电子邮箱地址,指定一个主题,生成正文文本,然后发送电子邮件。
脚本利用目标对象留在 Twitter 中可以公开访问的信息对他进行攻击。根据它会找到关于目标对象的地理位置信息、@过的用户、hash 标签以及链接,脚本就会生成和发送一个带有恶意链接的电子邮件,等待目标对象去点击。
Last updated
Was this helpful?