ログの検索に関連した論文を探してみた.見つけ次第,追記していく.
TencentCLS: The Cloud Log Service with High Query Performances
Tencentのログ管理のプラットフォームについて説明している.扱うログは,1日あたりペタバイトの規模が想定されている.Apache Lucene 6.0でBKD Treeが導入されたがBKDツリーの複雑さは線形に相関があることを課題している.
LogStore: A Cloud-Native and Multi-Tenant Log Database
Alibabaのログ管理プラットフォームを紹介している.ヘビーな書き込みのスループットがあり,1秒あたり数千万のログレコードが書き込まれるという.検索では数十万に及ぶテナントがあり,ペタベイトに及ぶログを探すという.Cost-effectiveなスケーラビリティのあるログストレージの設計が簡単でないことを課題としている.
LogStore | Proceedings of the 2021 International Conference on Management of Data
LogLens: A Real-Time Log Analysis System
NEC Laboratories Americaの研究者が中心で執筆している.リアルタイムのログ分析システムを提案した.また,教師なし機械学習を使いアプリケーションログのパースを行った.こうした,ログから異常なイベントを発見する方法や,ログメッセージのパーサーのパターンを自動で作成する方法は一つの研究テーマになっている印象がある.
LogLens: A Real-Time Log Analysis System | IEEE Conference Publication | IEEE Xplore
FLAP: An End-to-End Event Log Analysis Platform for System Management
フロリダ国際大学の研究者が中心で執筆している.FIU Log Analysis Platformというイベントログを解析するためのプラットフォームで使われている技術を紹介している.Challangesとして以下の3つを主張している.
- 多様な種類のイベントログが与えられるとき,どのようにイベント分析を広く一般的な方法でサポートするか.
- 目的の異なる多様な分析の要件がある際に,どのように効率的に既存の分析手法を適用するか.
- 多様な分析結果がある場合,どう効果的にユーザーへ提示するか.
Distributed Hayabusa: Scalable Syslog Search Engine Optimized for Time-Dimensional Search
筆頭著者は日本のLepidum社(現在はGMO Cybersecurity by Ierae社)の方だった.共著者に東大の方が多い.大規模なログの検索のために複雑なストレージシステムやクラスタシステムを管理する必要があることを課題としていた.Distributed Hayabusaというログ検索エンジンを提案している.ログをタイムスタンプでSQLiteファイルに分割(シャーディング)することで高速化していた.
Distributed Hayabusa | Proceedings of the 15th Asian Internet Engineering Conference
Read as Needed: Building WiSER, a Flash-Optimized Search Engine
検索エンジン WiSER を提案している.少ないメインメモリを使って高いスループットと低いレイテンシを出す手法を紹介している.以下を特徴として提案している.
- データ配置の最適化
- 2つのコストに配慮したブルームフィルター(特にここが新しそう)
- 適応性のあるプリフェッチ
- 容量と時間のトレードオフ
Read as Needed: Building WiSER, a Flash-Optimized Search Engine | USENIX
コメントを残す