URLを元にページのタイトルを取得するPerlサンプルスクリプト

URLから元ページのタイトルを取得するためのPerlのサンプルスクリプトです。
処理手順は以下の通りです。

1.ページURLを元にHTMLソースを取得する。
2.タイトルタグで囲まれている文字列を抜き出す。

対象のページがどんな文字エンコードで記述されているか不明なので、文字エンコードの変換処理も行っています。

use LWP::Simple;
use Jcode;

#my $pageurl = "http://www.01club.org/59log/";
my $pageurl = "http://59bbs.org/";
my $content = get($pageurl);
my $title = '';
my $pattern = "<title>(.+)</title>";
if($content =~ m/$pattern/i) {
$title = $1;
}

# 文字コードをSJISに変換
my ($code, $nmatch) = Jcode::getcode(\$title);
$title = Jcode->new($title, $code)->sjis;
print "$title\n";


サンプルコードではタイトルだけ取得してますが、正規表現のパターンを変更することで、本文も取得なども行えるはずです。
[231] Posted by buzei at 2008/03/02 22:35:06
オープン | 0 point | Link (1) | Trackback (0) | Comment (0)

キーワード
プログラミング Perl サンプル

掲示板と検索のホームページ


URLを元にページのタイトルを取得するPerlサンプルスクリプト 関連リンク

[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現
HTMLソースからtitleやbodyタグで囲まれている部分を抜き出すための正規表現ですが、<title.*>(.+)</title><body...

URLを元にページのタイトルを取得するPerlサンプルスクリプト トラックバック

トラックバックURL :


URLを元にページのタイトルを取得するPerlサンプルスクリプトへのコメント


詳細の入力フィールドを表示する

おすすめ  (チェックしてコメントすると最新情報に掲載)
コメント :

< 前のスレッド      次のスレッド >

アクセスランキング

今日のアクセスランキング(上位10件)

  1. 【速報】パナマ文書に記載されている日本企業、日本人の一覧リスト (4 PV)
  2. 掲示板やチャットなどのフリーPHPスクリプトの配布サイト (1 PV)
  3. 人気モデルのケイトアプトンさんがGuess(ゲス)創業者ポールマルシアーノ氏のセクハラを告発 (1 PV)
  4. プリンセスガーデンホテル女性社長の「片岡都美」氏はフジモリ元大統領夫人 (1 PV)
  5. 岡沢高宏の相棒でヤクザの金村剛弘(金剛弘)が西新宿の路上で襲撃され死亡 (1 PV)
  6. NHK大河ドラマ「龍馬伝」で岩崎弥太郎の人物像が斬新すぎる件 (1 PV)
  7. 5ちゃんねる(5ch.net、旧2ちゃんねる)掲示板 (1 PV)
  8. [Twitter]ツイッター検索のまとめ (1 PV)
  9. 2ちゃんねる(2ch)検索 掲示板 - スレタイ、過去ログ、全文検索 (1 PV)

今月のアクセスランキング(上位10件)

  1. 掲示板やチャットなどのフリーPHPスクリプトの配布サイト (80 PV)
  2. 岡沢高宏の相棒でヤクザの金村剛弘(金剛弘)が西新宿の路上で襲撃され死亡 (63 PV)
  3. 【速報】パナマ文書に記載されている日本企業、日本人の一覧リスト (49 PV)
  4. [Twitter]ツイッター検索のまとめ (41 PV)
  5. 掲示板フリーソフト - 無料で利用できる掲示板CGI (34 PV)
  6. 伝説の男、瓜田純士さんが新宿駅構内で2週間前に割腹自殺を図る (30 PV)
  7. 5ちゃんねる(5ch.net、旧2ちゃんねる)掲示板 (29 PV)
  8. プリンセスガーデンホテル女性社長の「片岡都美」氏はフジモリ元大統領夫人 (27 PV)
  9. スクエニ和田洋一社長、FF14の不評を認める (18 PV)
  10. k本的に無料ソフト・フリーソフト (15 PV)

アクセス統計

ディレクトリ

関連サイト