データレイクは、大量データ分析/生成データの活用を視野に入れた新しいデータストアのかたちです。
従来のデータベース/データウェアハウスの範囲に収まらない多様なデータを大量に保管し、高度な統計分析や機械学習に役立つ情報基盤を作ることが可能です。
従来では想定しえなかった大量のデータを確実に保管するため、データレイクの世界ではクラウドのようなサービス型インフラストラクチャの活用が注目されます。
さらにAWSではオブジェクトストレージS3上のデータを直接分析するAmazon Athena、データウェアハウスのAmazon Redshift、機械学習を実現するAmazon SageMakerなど、データレイクを支えるさまざまな仕組みが存在します。
AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門 – 2020/7/9
コメント