カテゴリ一 AWS クラウド

2024-02-01 #AWS #AWS CloudShell #Amazon S3

こんにちは、エンジニアの君島です。

AWS公式のマウントツールであるMountpoint for Amazon S3がGAになりましたね。(今更

オープンソースのマウントツールはこれまでも存在していましたが、AWS謹製のツールがリリースされたので、こちらを使用してS3に置いてあるオブジェクトをキーワード検索してみましょう。オブジェクトの名前ではなく、ファイルの中身を検索するのでトラブルシュートなどでログを追う時には便利な方法です。

これまでは、公式ではないツールやコマンドを利用したり、S3をデータソースとしてAmazon Athenaを使ったり、Amazon Kendraを使用したりと準備が必要でしたが、公式にマウントツールが出たことで本番ワークロードでもCLIで簡単にキーワード検索が実現できるようになったので、AWS CloudShellで実行した方法を記載します。

目次 [非表示]

1 AWS CloudShellからmount-s3を使ってS3をファイル内検索する
2 まとめ
3 告知
- 3.1 カジュアル面談も実施中

AWS CloudShellからmount-s3を使ってS3をファイル内検索する

Mountpoint for Amazon S3のインストール

AWS CloudShellはIntelベースのプロセッサで動いているようです。

$ cat /proc/cpuinfo 
processor       : 0
vendor_id       : GenuineIntel
cpu family      : 6
model           : 85
model name      : Intel(R) Xeon(R) Platinum 8259CL CPU @ 2.50GHz
stepping        : 7
microcode       : 0x5003604
cpu MHz         : 2499.996
cache size      : 36608 KB
physical id     : 0
siblings        : 2
core id         : 0
cpu cores       : 1
apicid          : 0
initial apicid  : 0
fpu             : yes
fpu_exception   : yes
cpuid level     : 13
wp              : yes
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ss ht syscall nx pdpe1gb rdtscp lm constant_tsc rep_good nopl xtopology nonstop_tsc cpuid tsc_known_freq pni pclmulqdq ssse3 fma cx16 pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand hypervisor lahf_lm abm 3dnowprefetch invpcid_single pti fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid mpx avx512f avx512dq rdseed adx smap clflushopt clwb avx512cd avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves ida arat pku ospke
bugs            : cpu_meltdown spectre_v1 spectre_v2 spec_store_bypass l1tf mds swapgs itlb_multihit mmio_stale_data retbleed gds
bogomips        : 4999.99
clflush size    : 64
cache_alignment : 64
address sizes   : 46 bits physical, 48 bits virtual
power management:

$ cat /proc/cpuinfo

processor : 0

vendor_id : GenuineIntel

cpu family : 6

model : 85

model name : Intel(R) Xeon(R) Platinum 8259CL CPU @ 2.50GHz

stepping : 7

microcode : 0x5003604

cpu MHz : 2499.996

cache size : 36608 KB

physical id : 0

siblings : 2

core id : 0

cpu cores : 1

apicid : 0

initial apicid : 0

fpu : yes

fpu_exception : yes

cpuid level : 13

wp : yes

flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ss ht syscall nx pdpe1gb rdtscp lm constant_tsc rep_good nopl xtopology nonstop_tsc cpuid tsc_known_freq pni pclmulqdq ssse3 fma cx16 pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand hypervisor lahf_lm abm 3dnowprefetch invpcid_single pti fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid mpx avx512f avx512dq rdseed adx smap clflushopt clwb avx512cd avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves ida arat pku ospke

bugs : cpu_meltdown spectre_v1 spectre_v2 spec_store_bypass l1tf mds swapgs itlb_multihit mmio_stale_data retbleed gds

bogomips : 4999.99

clflush size : 64

cache_alignment : 64

address sizes : 46 bits physical, 48 bits virtual

power management:

ですので、ARM(graviton)ベースでない方のx86_64のバイナリをダウンロードしてインストールします。バイナリを永続的ストレージの/home領域にダウンロードしていれば、セッションが切れても再度ダウンロードする必要はありません。セッションが切れて再接続した場合は、2行目のインストールコマンドから実行してください。

wget https://s3.amazonaws.com/mountpoint-s3-release/latest/x86_64/mount-s3.rpm
sudo dnf install -y mount-s3.rpm

1 2	wget https://s3.amazonaws.com/mountpoint-s3-release/latest/x86_64/mount-s3.rpm sudo dnf install -y mount-s3.rpm

S3バケットのマウント

マウントするディレクトリを作成して、そこにAWS CloudShell と同一リージョンで作成してあるS3バケットをマウントしましょう。

mnt-s3-bucketというマウント先のディレクトリを作成してから、マウントを実行します。コマンド1行でマウントできます。

mkdir mnt-s3-bucket
mount-s3 &lt;BUCKET_NAME&gt; mnt-s3-bucket

1 2	mkdir mnt-s3-bucket mount-s3 <BUCKET_NAME> mnt-s3-bucket

S3内をファイル内検索

さあ、ファイル内検索をしてみましょう。普通はfindとgrepの合わせ技がオーソドックスだと思いますが、私がvim使いなので内部grepであるvimgrepを使います。

早速vimを起動しましょう。

vim

vim

vimを起動した状態で、コロン(:)を打つとvimのコマンドを利用することができます。vimgrepは正規表現を使ったファイル内検索をすることができます。1オプション目が正規表現のパターンで、その次のオプションでファイルを指定することになります。

:vimgrep &lt;PATTERN&gt; &lt;FILE_PATH&gt; | cw

1	:vimgrep <PATTERN> <FILE_PATH> \| cw

例えば、exceptionという文字列をS3バケット内にある拡張子logファイルの中から検索したい場合は以下のように指定します。2番目のオプションでもワイルドカードを使用することができるのと、再帰的にディレクトリを辿って検索したい場合は**と指定しましょう。

mnt-s3-bucket/*/*と指定してしまうと、mnt-s3-bucketの直下にあるディレクトリ内のファイルだけを検索してしまいますので注意です。

:vimgrep /exception/ mnt-s3-bucket/**/*.log | cw

1	:vimgrep /exception/ mnt-s3-bucket/*/.log \| cw

vimgrepは| cwと組み合わせるのが普通かと思います。これは別のウィンドウ表示をしてくれるコマンドで、vimgrepの結果であるファイル一覧と、そのファイルの中身の検索結果をひとつのターミナルで表現することができます。

コマンドを実行してみると、例えば以下のような表示になります。上部のウィンドウはファイルの内容、下部のウィンドウは検索結果のファイル一覧のリストになります。

開いているファイル内は/コマンドを使って他のキーワードや候補の検索を行い、別のファイルを見たい時はCtrl+Wキーでファイル一覧の方へカーソルを移動することができるのですが、ブラウザのショートカットと関連付いているためか動作しなかったので、代わりにwinc、もしくはwincmdを使うようにします。ウィンドウ移動のための引数はカーソル移動のキーと同じようなhjklなどのキーを指定することができます。

:winc &lt;引数&gt;

1	:winc <引数>

ただ、難しく考えてしまうくらいならwやpオプションでウィンドウ移動できることを覚えておきましょう。

:winc w

:winc w

これで、CLIで行っているやり方とほぼ同じようなやり方で、S3バケットにあるファイル内のキーワード検索することができるようになりました。

余談

なお、今回は私の趣味で、内部grepであるvimgrepを採用しました。内部grepの場合、検索対象のファイルを一度メモリに読み込みます。

実際にvimgrep中のメモリ状況を見てみました。大きいファイルを検索対象とする場合は、vim実行プロセスが占めるCPUもメモリも増加傾向にあります。

AWS CloudShellの場合、メモリが1GBなので、ファイルサイズがそれよりも大きいものを検索対象とする場合は注意が必要になります。

ログを調査する上ではそこまで大きいファイルサイズにならないかもしれませんが、例えば、上記の例のようにファイル名で対象を絞る等して、大きいサイズのファイルは検索しないようにするなどの対処を行うようにしてください。

また、vimで初期設定のまま、ファイルを開くとswapファイルを作成してしまいます。grepの度にswapファイルが増えるのは嫌ですよね。

S3内にあるファイルを見るような場合は、

vim ~/.vimrc

1	vim ~/.vimrc

で開いたファイルにset noswapfileと指定して保存しておくことで、S3上のファイルを開いてもswapファイルを作成しないようになります。

最後に余談ですが、私は癖でCtrl+Wでよくブラウザのタブを閉じてしまうので、Disable keyboard shortcutsというエクステンションを入れてショートカットを無効化しています。

まとめ

AWS公式のマウントツールであるMountpoint for Amazon S3を用いて、S3内でのファイル内のキーワード検索をAWS CloudShell上で実現する方法を記載しました。

これにより、例えば、アプリケーションログをS3に出力していたときのログの調査をAmazon AthenaやAmazon Kendraを使用することなく、従来のCLIと同じ操作方法で実現できるようになります。

また、本文中で言及はしませんでしたが、AWS CloudShellとMountpoint for Amazon S3を併用することで、クレデンシャルを発行して指定する必要もないのもいいことですね。

今回は、検索結果のファイル一覧とファイルの中身を並べながら操作をすることができるvim(vimgrepとcw)を使った方法を紹介しました。/でファイル内のテキスト検索をして、他のファイル一覧に戻るためのウィンドウ移動はwinc wやwinc pを使って移動します。vimはLinuxでもWindowsでも利用できるので、大体どの環境でも同じような操作感でログの調査を行うことができるのが利点でもあります。

なお、アイキャッチ画像にはStable Diffusion XLでMountpoint for Amazon S3をCLIで使うエンジニア(アニメ風)などといったプロンプトで画像生成してみました。

プロンプトをいじってエンジニアを取り除いたら、なんとなく写実的っぽさと某アニメっぽい雰囲気が両立した画像が生成できたりもして良さそうでした。

告知

カジュアル面談も実施中

ギークフィードではAWSエンジニアなどの職種で一緒に働く仲間を募集しています。

弊社に興味を持っていただいたり、会社のことをカジュアルに聞いてみたいという場合でも、ご気軽にフォームからお問い合わせください。その場合はコメント欄に、カジュアルにお話したいです、と記載ください！

採用情報はコチラ

この記事を書いた人
最近の記事

君島翔

AI事業部事業部長：株式会社ギークフィード

Java, .NET系の言語が得意。Laravelも使います。エディタはvim派。自分が楽するためにテストやビルド、デプロイを自動化させたい。 2022-2023 AWS Ambassador / 2022-2023 Japan AWS Top Engineer / 2022-2023 Japan AWS ALL Certifications Engineer

【採用情報】一緒に働く仲間を募集しています

2024-02-01 #AWS #AWS CloudShell #Amazon S3

CLIでAmazon S3にあるファイル内の文字列検索をしてみる

AWS CloudShellからmount-s3を使ってS3をファイル内検索する

Mountpoint for Amazon S3のインストール

S3バケットのマウント

S3内をファイル内検索

余談

まとめ

告知

カジュアル面談も実施中

【採用情報】一緒に働く仲間を募集しています

エンジニア募集

Asterisk13CLI_チートシート

CentOS7_チートシート

カテゴリー

月別で見る

投稿者から見る

サイト内検索

CLIでAmazon S3にあるファイル内の文字列検索をしてみる

AWS CloudShellからmount-s3を使ってS3をファイル内検索する

Mountpoint for Amazon S3のインストール

S3バケットのマウント

S3内をファイル内検索

余談

まとめ

告知

カジュアル面談も実施中

【採用情報】一緒に働く仲間を募集しています

関連投稿

Amazon PollyのSSMLを使って日本語のイントネーションを自然にする

AWS Card Clashがマルチ対戦可能になっていたり進化していた

Next.jsアプリケーションをAWS App Runnerにデプロイする実践ガイド

2ヶ月で全取得したAWS認定を2ヶ月以内に再認定＆取得し直す

非エンジニアがChatGPTを使ってGASのスクリプトを書いてみた

去年1年間で最も勢いのあったJavaScriptライブラリを見ていく【JavaScript Rising Stars 2024】

エンジニア募集

Asterisk13CLI_チートシート

CentOS7_チートシート

カテゴリー

月別で見る

投稿者から見る

サイト内検索