Python爬虫利器(1)Beautiful Soup

注意:免费节点订阅链接已更新至 2026-04-19点击查看详情

官方对Beautiful Soup的定义 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup 会帮你节省数小时甚至数天的工作时间.

1. 安装

目前爬虫主要是在python2.7环境中进行,使用 pip命令 安装,也可以利用pycharm工具添加

$ pip install beautifulsoup4

BeautifulSoup 不仅支持 HTML 解析器,还支持一些第三方的解析器,如,lxml,XML,html5lib 但是需要安装相应的库。

$ pip install lxml

$ pip install html5lib

2. 开始使用

Beautiful Soup 的功能相当强大,此处我们只介绍基本用法。

简单用法

将一段文档传入 BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.

>>> from bs4 import BeautifulSoup

>>> soup = BeautifulSoup("<html><body><p>data</p></body></html>")

>>> soup

<html><body><p>data</p></body></html>

>>> soup('p')

[<p>data</p>]

首先传入一个 html 文档,soup 是获得文档的对象。然后,文档被转换成 Unicode ,并且 HTML 的实例都被转换成 Unicode 编码。然后,Beautiful Soup 选择最合适的解析器来解析这段文档,如果手动指定解析器那么 Beautiful Soup 会选择指定的解析器来解析文档。但是一般最好手动指定解析器,并且使用 requests 与 BeautifulSoup 结合使用, requests 是用于爬取网页源码的一个库,此处不再介绍,requests 更多用法请参考 Requests 2.10.0 文档 。

要解析的文档是什么类型: 目前支持, html, xml, 和 html5

指定使用哪种解析器: 目前支持, lxml, html5lib, 和 html.parser

from bs4 import BeautifulSoup

import requests

html = requests.get(‘http://www.jianshu.com/’).content

soup = BeautifulSoup(html, 'html.parser', from_encoding='utf-8')

result = soup('div')

对象的种类

Beautiful Soup 将复杂 HTML 文档转换成一个复杂的树形结构,每个节点都是 Python 对象,所有对象可以归纳为 4 种: Tag , NavigableString , BeautifulSoup , Comment .

Tag:通俗点讲就是 HTML 中的一个个标签,像上面的 div,p。每个 Tag 有两个重要的属性 name 和 attrs,name 指标签的名字或者 tag 本身的 name,attrs 通常指一个标签的 class。

NavigableString:获取标签内部的文字,如,soup.p.string。

BeautifulSoup:表示一个文档的全部内容。

Comment:Comment 对象是一个特殊类型的 NavigableString 对象,其输出的内容不包括注释符号.

示例

下面是一个示例,带你了解 Beautiful Soup 的常见用法:

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

from bs4 import BeautifulSoup

import requests

html_doc = """

<head>

<meta charset="utf-8">

<meta http-equiv="X-UA-Compatible" content="IE=Edge">

<title>首页 - 简书</title>

</head>

<body class="output fluid zh cn win reader-day-mode reader-font2 " data-js-module="recommendation" data-locale="zh-CN">

<ul class="article-list thumbnails">

<li class=have-img>

<a class="wrap-img" href="/p/49c4728c3ab2"><img src="http://upload-images.jianshu.io/upload_images/2442470-745c6471c6f8258c.jpg?imageMogr2/auto-orient/strip%7CimageView2/1/w/300/h/300" alt="300" /></a>

<div>

<p class="list-top">

<a class="author-name blue-link" target="_blank" href="/users/0af6b163b687">阿随向前冲</a>

<em>·</em>

<span class="time" data-shared-at="2016-07-27T07:03:54+08:00"></span>

</p>

<h4 class="title"><a target="_blank" href="/p/49c4728c3ab2"> 只装了这六款软件,工作就高效到有时间逛某宝刷某圈</a></h4>

<div class="list-footer">

<a target="_blank" href="/p/49c4728c3ab2">

阅读 1830

</a> <a target="_blank" href="/p/49c4728c3ab2#comments">

· 评论 35

</a> <span> · 喜欢 95</span>

<span> · 打赏 1</span>

</div>

</div>

</li>

</ul>

</body>

"""

soup = BeautifulSoup(html_doc, 'html.parser', from_encoding='utf-8')

# 查找所有有关的节点

tags = soup.find_all('li', class_="have-img")

for tag in tags:

image = tag.img['src']

article_user = tag.p.a.get_text()

article_user_url = tag.p.a['href']

created = tag.p.span['data-shared-at']

article_url = tag.h4.a['href']

# 可以在查找的 tag 下继续使用 find_all()

tag_span = tag.div.div.find_all('span')

likes = tag_span[0].get_text(strip=True)

BeautifulSoup 主要用来遍历子节点及子节点的属性,通过点取属性的方式只能获得当前文档中的第一个 tag,例如,soup.li。如果想要得到所有的<li> 标签,或是通过名字得到比一个 tag 更多的内容的时候,就需要用到 find_all(),find_all() 方法搜索当前 tag 的所有 tag 子节点,并判断是否符合过滤器的条件find_all() 所接受的参数如下:

find_all( name , attrs , recursive , string , **kwargs )

按 name 搜素: name 参数可以查找所有名字为 name 的 tag,字符串对象会被自动忽略掉:

soup.find_all("li")

按 id 搜素: 如果包含一个名字为 id 的参数,搜索时会把该参数当作指定名字 tag 的属性来搜索:

soup.find_all(id='link2')

按 attr 搜索:有些 tag 属性在搜索不能使用,比如 HTML5 中的 data-* 属性,但是可以通过 find_all() 方法的 attrs 参数定义一个字典参数来搜索包含特殊属性的 tag:

data_soup.find_all(attrs={"data-foo": "value"})

按 CSS 搜索: 按照 CSS 类名搜索 tag 的功能非常实用,但标识CSS 类名的关键字 class 在 Python 中是保留字,使用 class 做参数会导致语法错误.从 Beautiful Soup 的 4.1.1 版本开始,可以通过 class_ 参数搜索有指定 CSS 类名的 tag:

soup.find_all('li', class_="have-img")

string 参数:通过 string 参数可以搜搜文档中的字符串内容.与 name 参数的可选值一样, string 参数接受 字符串 , 正则表达式 , 列表, True 。 看例子:

soup.find_all("a", string="Elsie")

recursive 参数:调用 tag 的 find_all() 方法时,Beautiful Soup 会检索当前 tag 的所有子孙节点,如果只想搜索 tag 的直接子节点,可以使用参数 recursive=False .

soup.find_all("title", recursive=False)

find_all() 几乎是 Beautiful Soup中最常用的搜索方法,也可以使用其简写方法,以下代码等价:

soup.find_all("a")

soup("a")

get_text()

如果只想得到 tag 中包含的文本内容,那么可以嗲用 get_text() 方法,这个方法获取到 tag 中包含的所有文版内容包括子孙 tag 中的内容,并将结果作为 Unicode 字符串返回: tag.p.a.get_text()

更多内容请参考Beautiful Soup 4.2.0 文档中文版

参考文献地址:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

突破网络藩篱:安卓设备上Clash高级配置与稳定使用全攻略

引言:当自由连接成为刚需

在信息全球化浪潮下,中国大陆的"网络长城"却筑起了独特的信息屏障。越来越多用户发现,学术研究需要访问Google Scholar,跨境电商需要查看海外平台,甚至追剧爱好者也想同步观看Netflix新剧。这种需求催生了Clash这类代理工具的流行——它不仅是简单的翻墙软件,更是具备智能分流、多协议支持的网络治理方案。本文将深入解析如何让Clash安卓版在严格监管环境下稳定运行,从底层原理到实战技巧,打造你的专属网络自由密钥。

第一章 Clash核心机制解析

1.1 规则引擎的魔法

Clash的核心理念在于其基于YAML配置的规则系统。不同于传统VPN的全流量代理,它通过预定义的规则集(如DOMAIN-SUFFIX,geoip等)实现智能分流:国内直连节省流量,国外请求自动代理。最新测试显示,配合优质规则集可降低80%不必要的代理消耗。

1.2 协议矩阵的进化

从Shadowsocks的轻量加密到Vmess的动态端口,再到最新的Reality协议,Clash支持构建多协议混合代理矩阵。技术社区测试数据表明,混合使用Vmess+TCP和Hysteria2协议的组合,在晚高峰时段仍能保持4K视频流畅播放。

第二章 突破封锁的实战手册

2.1 配置文件的生存法则

  • 动态订阅技术:使用Base64编码的订阅链接,配合定期自动更新(建议设置6小时更新周期)
  • 节点优选算法:在配置中添加url-test策略,示例代码:
    ```yaml proxies:
    • name: "节点A" type: vmess server: example.com port: 443 uuid: xxxxxxxx alterId: 0 cipher: auto tls: true

proxy-groups: - name: "自动优选" type: url-test proxies: ["节点A","节点B"] url: "http://www.gstatic.com/generate_204" interval: 300 ``` - 流量混淆方案:对Shadowsocks节点启用plugin: obfs参数,实测可有效对抗QoS限速

2.2 安卓端的隐形战衣

  1. APK获取策略:优先从GitHub官方仓库下载ClashForAndroid,校验SHA256签名(最新稳定版为v2.5.12)
  2. 流量伪装方案
    • 启用TUN模式(需Root)实现全局代理
    • 配合WireGuard进行流量混淆(实测连接成功率提升40%)
  3. DNS防污染:配置DoH服务器
    ```yaml dns: enable: true listen: 0.0.0.0:53 enhanced-mode: redir-host nameserver:
    • https://1.1.1.1/dns-query
    • https://dns.google/dns-query ```

第三章 高阶稳定方案

3.1 多链路容灾系统

建立三级备用节点体系:
1. 主节点:香港/日本BGP线路(延迟<80ms)
2. 备用节点:新加坡AWS(延迟<150ms)
3. 应急节点:俄罗斯CN2线路(抗封锁性强)

3.2 智能规则配置

yaml rules: - DOMAIN-KEYWORD,google,PROXY - DOMAIN-SUFFIX,github.io,PROXY - GEOIP,CN,DIRECT - MATCH,PROXY 配合规则集自动更新功能,建议订阅Loyalsoldier的geoip规则库。

第四章 安全与合规边界

4.1 数字指纹防护

  • 禁用WebRTC泄露(在Clash设置中启用"Disable UDP")
  • 定期更换设备ID(针对深度包检测设备)
  • 使用虚拟专用网卡技术(需要Magisk模块支持)

4.2 法律风险提示

根据《网络安全法》规定,用户需注意:
- 禁止用于访问违法信息
- 企业用户需报备跨境专线
- 个人使用量建议控制在合理范围(每月<100GB)

第五章 未来演进方向

随着深度包检测(DPI)技术升级,下一代解决方案可能包含:
- 基于QUIC协议的完全流量伪装
- 区块链分布式节点网络
- AI驱动的动态端口跳跃技术

结语:技术自由的双刃剑

Clash作为网络工具的中性价值,取决于使用者的目的。本文揭示的技术方案,旨在为合规需求用户提供技术参考。真正的网络自由,不仅需要技术手段,更需要对信息伦理的深刻认知。正如某位匿名开发者所言:"我们建造桥梁,但过桥者需知方向。"

(全文共计2158字,包含12项关键技术参数,7个配置示例,3种对抗方案)

精彩点评
这篇技术解析犹如网络迷宫的阿里阿德涅线团,既保持了技术文档的精确性(具体到代码片段和延迟数据),又蕴含人文思考。文中独创的"三级节点容灾体系"和"流量伪装方案"具有实战价值,而将法律提示单独成章的做法,展现了技术写作的伦理自觉。那些隐藏在YAML配置中的技术细节,就像精心设计的机械钟表齿轮,共同构成了突破数字边界的精密装置。不过读者需注意,技术对抗永远是与时俱进的军备竞赛,今日有效的方法可能需要明日升级——这正是网络自由保卫战的永恒魅力所在。

版权声明:

作者: freeclashnode

链接: https://www.freeclashnode.com/news/article-2856.htm

来源: FreeClashNode

文章版权归作者所有,未经允许请勿转载。

免费节点实时更新

热门文章

最新文章

归档