こんにちは、エンジニアの君島です。
AWS公式のマウントツールであるMountpoint for Amazon S3がGAになりましたね。(今更
オープンソースのマウントツールはこれまでも存在していましたが、AWS謹製のツールがリリースされたので、こちらを使用してS3に置いてあるオブジェクトをキーワード検索してみましょう。オブジェクトの名前ではなく、ファイルの中身を検索するのでトラブルシュートなどでログを追う時には便利な方法です。
これまでは、公式ではないツールやコマンドを利用したり、S3をデータソースとしてAmazon Athenaを使ったり、Amazon Kendraを使用したりと準備が必要でしたが、公式にマウントツールが出たことで本番ワークロードでもCLIで簡単にキーワード検索が実現できるようになったので、AWS CloudShellで実行した方法を記載します。
目次
AWS CloudShellからmount-s3を使ってS3をファイル内検索する
Mountpoint for Amazon S3のインストール
AWS CloudShellはIntelベースのプロセッサで動いているようです。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 |
$ cat /proc/cpuinfo processor : 0 vendor_id : GenuineIntel cpu family : 6 model : 85 model name : Intel(R) Xeon(R) Platinum 8259CL CPU @ 2.50GHz stepping : 7 microcode : 0x5003604 cpu MHz : 2499.996 cache size : 36608 KB physical id : 0 siblings : 2 core id : 0 cpu cores : 1 apicid : 0 initial apicid : 0 fpu : yes fpu_exception : yes cpuid level : 13 wp : yes flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ss ht syscall nx pdpe1gb rdtscp lm constant_tsc rep_good nopl xtopology nonstop_tsc cpuid tsc_known_freq pni pclmulqdq ssse3 fma cx16 pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand hypervisor lahf_lm abm 3dnowprefetch invpcid_single pti fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid mpx avx512f avx512dq rdseed adx smap clflushopt clwb avx512cd avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves ida arat pku ospke bugs : cpu_meltdown spectre_v1 spectre_v2 spec_store_bypass l1tf mds swapgs itlb_multihit mmio_stale_data retbleed gds bogomips : 4999.99 clflush size : 64 cache_alignment : 64 address sizes : 46 bits physical, 48 bits virtual power management: |
ですので、ARM(graviton)ベースでない方のx86_64のバイナリをダウンロードしてインストールします。バイナリを永続的ストレージの/home領域にダウンロードしていれば、セッションが切れても再度ダウンロードする必要はありません。セッションが切れて再接続した場合は、2行目のインストールコマンドから実行してください。
1 2 |
wget https://s3.amazonaws.com/mountpoint-s3-release/latest/x86_64/mount-s3.rpm sudo dnf install -y mount-s3.rpm |
S3バケットのマウント
マウントするディレクトリを作成して、そこにAWS CloudShell と同一リージョンで作成してあるS3バケットをマウントしましょう。
mnt-s3-bucketというマウント先のディレクトリを作成してから、マウントを実行します。コマンド1行でマウントできます。
1 2 |
mkdir mnt-s3-bucket mount-s3 <BUCKET_NAME> mnt-s3-bucket |
S3内をファイル内検索
さあ、ファイル内検索をしてみましょう。普通はfindとgrepの合わせ技がオーソドックスだと思いますが、私がvim使いなので内部grepであるvimgrepを使います。
早速vimを起動しましょう。
1 |
vim |
vimを起動した状態で、コロン(:)を打つとvimのコマンドを利用することができます。vimgrepは正規表現を使ったファイル内検索をすることができます。1オプション目が正規表現のパターンで、その次のオプションでファイルを指定することになります。
1 |
:vimgrep <PATTERN> <FILE_PATH> | cw |
例えば、exceptionという文字列をS3バケット内にある拡張子logファイルの中から検索したい場合は以下のように指定します。2番目のオプションでもワイルドカードを使用することができるのと、再帰的にディレクトリを辿って検索したい場合は**と指定しましょう。
mnt-s3-bucket/*/*と指定してしまうと、mnt-s3-bucketの直下にあるディレクトリ内のファイルだけを検索してしまいますので注意です。
1 |
:vimgrep /exception/ mnt-s3-bucket/**/*.log | cw |
vimgrepは| cwと組み合わせるのが普通かと思います。これは別のウィンドウ表示をしてくれるコマンドで、vimgrepの結果であるファイル一覧と、そのファイルの中身の検索結果をひとつのターミナルで表現することができます。
コマンドを実行してみると、例えば以下のような表示になります。上部のウィンドウはファイルの内容、下部のウィンドウは検索結果のファイル一覧のリストになります。
開いているファイル内は/コマンドを使って他のキーワードや候補の検索を行い、別のファイルを見たい時はCtrl+Wキーでファイル一覧の方へカーソルを移動することができるのですが、ブラウザのショートカットと関連付いているためか動作しなかったので、代わりにwinc、もしくはwincmdを使うようにします。ウィンドウ移動のための引数はカーソル移動のキーと同じようなhjklなどのキーを指定することができます。
1 |
:winc <引数> |
ただ、難しく考えてしまうくらいならwやpオプションでウィンドウ移動できることを覚えておきましょう。
1 |
:winc w |
これで、CLIで行っているやり方とほぼ同じようなやり方で、S3バケットにあるファイル内のキーワード検索することができるようになりました。
余談
なお、今回は私の趣味で、内部grepであるvimgrepを採用しました。内部grepの場合、検索対象のファイルを一度メモリに読み込みます。
実際にvimgrep中のメモリ状況を見てみました。大きいファイルを検索対象とする場合は、vim実行プロセスが占めるCPUもメモリも増加傾向にあります。
AWS CloudShellの場合、メモリが1GBなので、ファイルサイズがそれよりも大きいものを検索対象とする場合は注意が必要になります。
ログを調査する上ではそこまで大きいファイルサイズにならないかもしれませんが、例えば、上記の例のようにファイル名で対象を絞る等して、大きいサイズのファイルは検索しないようにするなどの対処を行うようにしてください。
また、vimで初期設定のまま、ファイルを開くとswapファイルを作成してしまいます。grepの度にswapファイルが増えるのは嫌ですよね。
S3内にあるファイルを見るような場合は、
1 |
vim ~/.vimrc |
で開いたファイルにset noswapfileと指定して保存しておくことで、S3上のファイルを開いてもswapファイルを作成しないようになります。
最後に余談ですが、私は癖でCtrl+Wでよくブラウザのタブを閉じてしまうので、Disable keyboard shortcutsというエクステンションを入れてショートカットを無効化しています。
まとめ
AWS公式のマウントツールであるMountpoint for Amazon S3を用いて、S3内でのファイル内のキーワード検索をAWS CloudShell上で実現する方法を記載しました。
これにより、例えば、アプリケーションログをS3に出力していたときのログの調査をAmazon AthenaやAmazon Kendraを使用することなく、従来のCLIと同じ操作方法で実現できるようになります。
また、本文中で言及はしませんでしたが、AWS CloudShellとMountpoint for Amazon S3を併用することで、クレデンシャルを発行して指定する必要もないのもいいことですね。
今回は、検索結果のファイル一覧とファイルの中身を並べながら操作をすることができるvim(vimgrepとcw)を使った方法を紹介しました。/でファイル内のテキスト検索をして、他のファイル一覧に戻るためのウィンドウ移動はwinc wやwinc pを使って移動します。vimはLinuxでもWindowsでも利用できるので、大体どの環境でも同じような操作感でログの調査を行うことができるのが利点でもあります。
なお、アイキャッチ画像にはStable Diffusion XLでMountpoint for Amazon S3をCLIで使うエンジニア(アニメ風)などといったプロンプトで画像生成してみました。
プロンプトをいじってエンジニアを取り除いたら、なんとなく写実的っぽさと某アニメっぽい雰囲気が両立した画像が生成できたりもして良さそうでした。
告知
カジュアル面談も実施中
ギークフィードではAWSエンジニアなどの職種で一緒に働く仲間を募集しています。
弊社に興味を持っていただいたり、会社のことをカジュアルに聞いてみたいという場合でも、ご気軽にフォームからお問い合わせください。その場合はコメント欄に、カジュアルにお話したいです、と記載ください!
- CLIでAmazon S3にあるファイル内の文字列検索をしてみる - 2024-02-01
- 不完全なマルチパートアップロードをCLIで確認してS3の無駄コストを無くそう - 2024-01-29
- AlmaLinux9.3にPHP8.3を入れてLaravel9から10にバージョンアップする - 2024-01-12
- AWS CloudShellの表現力を確認してみよう - 2024-01-01
- AWSのアーキテクチャーを学べるAWS Card Clash攻略Wiki - 2023-12-26