BeautifulSoup 获取 head 里 meta 详细信息
在HTML文档中,meta标签用于提供关于文档的元数据
```
<head>
<title>这是TITLE</title>
<meta name="keywords" content="这是keywords"/>
<meta name="description" content="这是description"/>
</head>
```
抓取到网页内容后,如何通过 BeautifulSoup 来获取页面里的 meta 信息呢?
使用BeautifulSoup对抓取到html内容进行解析,使用find_all方法查找所有的meta标签。
遍历meta标签列表,使用get方法提取每个标签的name属性和content属性的值。
下面是完整的代码:
```
url = "https://www.bandianxiang.com"
html = urlopen(url)
bs = BeautifulSoup(html.read(), 'html.parser')
#获取title信息
title = bs.title
#遍历meta标签列表,并提取其content属性的值
for meta in bs.findAll("meta"):
if meta.get("name") == "keywords":
keywords = meta.get("content"))
elif meta.get("description") == "description":
description = meta.get("content"))
```
我的笔记