一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

AI網(wǎng)絡(luò)爬蟲:用kimichat自動批量提取網(wǎng)頁內(nèi)容

 AIGC部落 2024-05-14 發(fā)布于廣東

首先,在網(wǎng)頁中按下F12鍵,查看定位網(wǎng)頁元素:

然后在kimi中輸入提示詞:

你是一個Python編程專家,要完成一個爬取網(wǎng)頁內(nèi)容的Python腳本,具體步驟如下:

在F盤新建一個Excel文件:提示詞.xlsx

打開網(wǎng)頁:https://lobehub.com/zh/assistants

定位class="layoutkit-flexbox css-15l7r2q acss-vjqh32"的div標(biāo)簽;

定位div標(biāo)簽里面所有的a標(biāo)簽,

提取a標(biāo)簽的href屬性值,前面加上”https://lobehub.com/zh”,構(gòu)造成一個URL;

解析這個URL的源代碼;

在源代碼中定位class="acss-1ce01rv"的h1標(biāo)簽,提取其文本內(nèi)容作為提示詞標(biāo)題,寫入”提示詞.xlsx”這個Excel文件的第1列,列的標(biāo)頭為:提示詞標(biāo)題;

在源代碼中定位class="layoutkit-flexbox css-o3n4io acss-pl6lf1"的h2標(biāo)簽,提取其文本內(nèi)容作為提示詞簡介,寫入”提示詞.xlsx”這個Excel文件的第2列,列的標(biāo)頭為:提示詞簡介;

在源代碼中定位class="acss-7ksih7"的div標(biāo)簽,提取其全部文本內(nèi)容作為提示詞內(nèi)容,寫入”提示詞.xlsx”這個Excel文件的第3列,列的標(biāo)頭為:提示詞內(nèi)容;

注意:

每一步都要輸出相關(guān)信息到屏幕;

網(wǎng)站有放爬蟲機(jī)制,要通過設(shè)置請求頭、延遲請求等方式來進(jìn)行應(yīng)對

源代碼:

import requests

from bs4 import BeautifulSoup

import pandas as pd

from openpyxl import Workbook

# 定義目標(biāo)URL

url = "https://lobehub.com/zh/assistants"

# 設(shè)置請求頭,模擬瀏覽器訪問

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'

}

# 發(fā)送請求并獲取網(wǎng)頁內(nèi)容

response = requests.get(url, headers=headers)

response.raise_for_status() # 如果請求失敗,將拋出異常

# 解析網(wǎng)頁內(nèi)容

soup = BeautifulSoup(response.text, 'html.parser')

# 定位div標(biāo)簽并提取所有a標(biāo)簽的href屬性

div_tag = soup.find('div', class_='layoutkit-flexbox css-15l7r2q acss-vjqh32')

a_tags = div_tag.find_all('a')

# 構(gòu)造完整的URL

urls = ["https://lobehub.com/zh" + tag.get('href') for tag in a_tags]

# 定義Excel文件路徑

excel_path = 'F:/提示詞.xlsx'

# 創(chuàng)建工作簿和工作表

wb = Workbook()

ws = wb.active

# 設(shè)置列的標(biāo)頭

ws.append(['提示詞標(biāo)題', '提示詞簡介', '提示詞內(nèi)容'])

# 循環(huán)處理每個URL

for idx, url in enumerate(urls, start=1):

print(f"正在處理URL: {url}")

# 發(fā)送請求并獲取網(wǎng)頁內(nèi)容

response = requests.get(url, headers=headers)

response.raise_for_status()

# 解析網(wǎng)頁內(nèi)容

soup = BeautifulSoup(response.text, 'html.parser')

# 提取h1標(biāo)簽文本內(nèi)容

h1_tag = soup.find('h1', class_='acss-1ce01rv')

title = h1_tag.get_text(strip=True) if h1_tag else '無標(biāo)題'

# 提取h2標(biāo)簽文本內(nèi)容

h2_tag = soup.find('h2', class_='layoutkit-flexbox css-o3n4io acss-pl6lf1')

introduction = h2_tag.get_text(strip=True) if h2_tag else '無簡介'

# 提取div標(biāo)簽文本內(nèi)容

div_tag = soup.find('div', class_='acss-7ksih7')

content = div_tag.get_text(strip=True) if div_tag else '無內(nèi)容'

# 將提取的內(nèi)容寫入Excel文件

ws.append([title, introduction, content])

# 打印到屏幕

print(f"標(biāo)題: {title}")

print(f"簡介: {introduction}")

print(f"內(nèi)容: {content}")

# 保存Excel文件

wb.save(excel_path)

print(f"數(shù)據(jù)已寫入Excel文件: {excel_path}")

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    日韩精品视频一二三区| 91精品国自产拍老熟女露脸 | 欧美日韩一区二区综合| 久久亚洲国产视频三级黄| 亚洲日本加勒比在线播放| 国产一区二区不卡在线播放| 国产成人国产精品国产三级| 老外那个很粗大做起来很爽| 日韩日韩日韩日韩在线| 99久久成人精品国产免费| 日韩免费国产91在线| 欧洲日韩精品一区二区三区| 日本高清视频在线播放| 丰满人妻熟妇乱又乱精品古代| 精品国产一区二区欧美| 欧美午夜视频免费观看| 老外那个很粗大做起来很爽| 欧美亚洲美女资源国产| 欧美人妻免费一区二区三区| 精品香蕉一区二区在线| 久热这里只有精品九九| 99亚洲综合精品成人网色播| 久久这里只有精品中文字幕| 国产肥女老熟女激情视频一区 | 亚洲欧美日韩国产自拍| 美女黄色三级深夜福利| 都市激情小说在线一区二区三区| 日本av在线不卡一区| 亚洲一区二区精品国产av| 久久99亚洲小姐精品综合| 91插插插外国一区二区婷婷| 男人和女人干逼的视频| 欧美国产日产综合精品| 亚洲精品一区二区三区免| av中文字幕一区二区三区在线| 国产亚洲欧美一区二区| 欧美精品久久男人的天堂| 国产精品国产亚洲看不卡| 国产韩国日本精品视频| 中文字幕佐山爱一区二区免费| 黑色丝袜脚足国产一区二区|