#web-scraping | dev-memo

LP分析でヒートマップCSVの「クリックイベントラベル列」だけで中身を推定するのは不十分。LP HTMLを curl で実取得しないと、CTA文言やマイクロコピーが分からず、改善案が抽象論に終わる。

必要な実装

# 1. LP HTMLを取得
curl -sL -A "Mozilla/5.0 (iPhone;...)" "$LP_URL" -o lp.html

# 2. エンコーディング自動判定(SHIFT_JIS / UTF-8 / EUC-JP)
file lp.html
iconv -f SHIFT_JIS -t UTF-8 lp.html > lp_utf8.html

# 3. h1-h4 / a / button / 本文を抽出

抽出するべき要素

要素	用途
`<title>` / `<meta description>`	ページ全体の訴求
`h1-h4`	セクション構造（上から順）
`a` / `button` のテキスト	CTAコピー・マイクロコピー
本文（重複除去・順次）	セクション文言

「LPに存在しない要素」が逆に示唆を持つ

ポジティブチェック(何があるか)だけでなく**ネガティブチェック(何がないか)**も重要。

例: 「評判口コミ」系検索が流入22%なのにLPにお客様の声セクションが無い=最大流入への応答ゼロが判明。これはCSVヒートマップだけでは絶対に見えない。

依頼要件との関係

ビジネス依頼の「CTAのコピーを書き換える」レベルの具体提案は、CTA実文言を取得しないと書けない。抽出→対比→書き換え案の3ステップで「現状: ○○ → 改善案: △△」の形で提示する。

#web-scraping (1)

必要な実装

抽出するべき要素

「LPに存在しない要素」が逆に示唆を持つ

依頼要件との関係