住宅代理限時折扣:1000GB用券再減10%,僅需$0.79/GB

立即獲取

icon
icon

Socks5 代理:取得 85% 限時優惠,節省 7650 美元

立即獲取

icon
icon
logo logo
Home

< 返回博客

用 Ruby 實現爬蟲抓取的完整指南

Rose . 2024-07-12

網路爬蟲是一種自動化的工具,用於從網站上提取資訊。 Ruby 以其簡潔的語法和強大的庫支持,成為實現網路爬蟲的理想選擇。本文將詳細介紹如何用 Ruby 寫一個簡單的網路爬蟲,幫助你快速上手資料擷取。


第一步:安裝必要的程式庫


在開始編寫爬蟲之前,需要先安裝一些 Ruby 函式庫來簡化資料抓取的過程。主要的庫包括 `Nokogiri` 和 `HTTParty`。


```ruby

gem install nokogiri

gem install httparty

```


第二步:傳送 HTTP 請求


首先,我們需要用 `HTTParty` 庫傳送 HTTP 請求,取得目標網頁的 HTML 內容。


```ruby

require 'httparty'

require 'nokogiri'


url = 'https://example.com'

response = HTTParty.get(url)

html_content = response.body

```


第三步:解析 HTML 內容


接下來,用 `Nokogiri` 函式庫解析 HTML 內容,以便擷取所需的資料。


```ruby

doc = Nokogiri::HTML(html_content)

```


第四步:擷取數據


使用 CSS 選擇器或 XPath,從解析後的 HTML 中提取所需的資訊。


```ruby

titles = doc.css('h1').map(&:text)

puts titles

```


完整範例


以下是一個完整的範例程序,用於抓取範例網站的所有標題:


```ruby

require 'httparty'

require 'nokogiri'


url = 'https://example.com'

response = HTTParty.get(url)

html_content = response.body


doc = Nokogiri::HTML(html_content)

titles = doc.css('h1').map(&:text)


titles.each do |title|

 puts title

end

```


用 Ruby 實作網路爬蟲是一個簡單而有趣的過程。透過使用 `HTTParty` 和 `Nokogiri` 等強大的函式庫,可以輕鬆實現 HTTP 請求和 HTML 解析,快速進行資料抓取。無論是初學者還是有經驗的開發者,Ruby 都是理想的選擇,幫助你有效率地完成爬蟲專案。


在本文中:
logo
PIA Customer Service
logo
logo
👋Hi there!
We’re here to answer your questiona about PIA S5 Proxy.
logo

How long can I use the proxy?

logo

How to use the proxy ip I used before?

logo

How long does it take to receive the proxy balance or get my new account activated after the payment?

logo

Can I only buy proxies from a specific country?

logo

Can colleagues from my company use the same account as me?

Help Center

logo