[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現
HTMLソースからtitleやbodyタグで囲まれている部分を抜き出すための正規表現ですが、
<title.*>(.+)</title>
<body.*>(.+)</body>
くらいでいいだろうと思っていたら甘かった。
サイトによっては、
<title>
たいとる
</title>
とかになっているページもあるので、
$content =~ s/[\r\n]//g;
とかで改行コードを取り除いてから、
<title.*>(.+)</title>
<body.*>(.+)</body>
くらいでいいだろうと思っていたら甘かった。
サイトによっては、
<title>
たいとる
</title>
とかになっているページもあるので、
$content =~ s/[\r\n]//g;
とかで改行コードを取り除いてから、
my $title = '';こんな感じでやらないとダメらしい。
my $body = '';
my $pattern = "<title[^>]*>(.+)</title>";
if($content =~ m/$pattern/i) {
$title = $1;
}
$pattern = "<body[^>]*>(.+)</body>";
if($content =~ m/$pattern/i) {
$body = $1;
}
[513] Posted by buzei at 2008/07/29 19:00:17
オープン | 0 point | Link (2) | Trackback (0) | Comment (0)
オープン | 0 point | Link (2) | Trackback (0) | Comment (0)
キーワード
プログラミング Perl サンプル 正規表現
[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現 関連リンク
URLを元にページのタイトルを取得するPerlサンプルスクリプト | |
URLから元ページのタイトルを取得するためのPerlのサンプルスクリプトです。処理手順は以下の通りです。1.ページURLを元にHTMLソ... |
正規表現(regular expression)とは | |
正規表現(regular expression)とは、異なる文字列の集まりを一つパターンで表現するための表現方法で、テキストエディタやAWK、S... |
[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現 トラックバック
トラックバックURL :
[Perl]HTMLソースからtitleやbodyを抜き出すための正規表現へのコメント
アクセスランキング
今日のアクセスランキング(上位10件)
今月のアクセスランキング(上位10件)
- 2NN (2ch News Navigator) (314 PV)
- プリンセスガーデンホテル女性社長の「片岡都美」氏はフジモリ元大統領夫人 (93 PV)
- 小林興起元衆議院議員がタレントの杉本彩さんにキスを迫る (61 PV)
- 2ちゃんねる(2ch)検索 掲示板 - スレタイ、過去ログ、全文検索 (42 PV)
- 読売新聞「石井誠」記者変死事件 (20 PV)
- ログ速(ろぐそく、logsoku) - 過去ログ スレタイ検索 全文検索 (20 PV)
- 5ちゃんねる(5ch.net、旧2ちゃんねる)掲示板 (17 PV)
- PHP、MySQLで動くオープンソース掲示板ソフト (12 PV)
- 掲示板やチャットなどのフリーPHPスクリプトの配布サイト (11 PV)
- 掲示板フリーソフト - 無料で利用できる掲示板CGI (11 PV)
アクセス統計
ディレクトリ
- 59bbs.org - 掲示板
- Amalink - 画像付きamazon商品リンク作成ツール
- Mailform Std - オープンソースライセンス(GPLv2)のメールフォームCGI(Perl)
- ThreadPlus - オープンソースライセンスの(GPLv2)掲示板CGI(Perl)
- 2ちゃんねる掲示板検索
関連サイト
- 語句ログ - オープンソースブログソフト59Trackerを利用した情報共有ブログ
- 株価と為替レート(FX)の掲示板
- CommentPP - オープンソース掲示板システム(PHP/MySQL)のダウンロード
- BBS10 - CommentPP を利用したインターネット掲示板