#web-scraping (1)
LP分析でヒートマップCSVの「クリックイベントラベル列」だけで中身を推定するのは不十分。LP HTMLを curl で実取得しないと、CTA文言やマイクロコピーが分からず、改善案が抽象論に終わる。
必要な実装
# 1. LP HTMLを取得
curl -sL -A "Mozilla/5.0 (iPhone;...)" "$LP_URL" -o lp.html
# 2. エンコーディング自動判定(SHIFT_JIS / UTF-8 / EUC-JP)
file lp.html
iconv -f SHIFT_JIS -t UTF-8 lp.html > lp_utf8.html
# 3. h1-h4 / a / button / 本文を抽出
抽出するべき要素
| 要素 | 用途 |
|---|---|
<title> / <meta description> | ページ全体の訴求 |
h1-h4 | セクション構造(上から順) |
a / button のテキスト | CTAコピー・マイクロコピー |
| 本文(重複除去・順次) | セクション文言 |
「LPに存在しない要素」が逆に示唆を持つ
ポジティブチェック(何があるか)だけでなく**ネガティブチェック(何がないか)**も重要。
例: 「評判口コミ」系検索が流入22%なのにLPにお客様の声セクションが無い=最大流入への応答ゼロが判明。これはCSVヒートマップだけでは絶対に見えない。
依頼要件との関係
ビジネス依頼の「CTAのコピーを書き換える」レベルの具体提案は、CTA実文言を取得しないと書けない。抽出→対比→書き換え案の3ステップで「現状: ○○ → 改善案: △△」の形で提示する。