checkpoint manager

2025-06-24 21:41:50 +03:00
parent c9d1e029c5
commit 706eb13912
7 changed files with 978 additions and 1 deletions
--- a/NN/models/saved/checkpoint_metadata.json
+++ b/NN/models/saved/checkpoint_metadata.json
@@ -0,0 +1,126 @@
 {
  "example_cnn": [
    {
      "checkpoint_id": "example_cnn_20250624_213913",
      "model_name": "example_cnn",
      "model_type": "cnn",
      "file_path": "NN\\models\\saved\\example_cnn\\example_cnn_20250624_213913.pt",
      "created_at": "2025-06-24T21:39:13.559926",
      "file_size_mb": 0.0797882080078125,
      "performance_score": 65.67219525381417,
      "accuracy": 0.28019601724789606,
      "loss": 1.9252885885630378,
      "val_accuracy": 0.21531048803825983,
      "val_loss": 1.953166686238386,
      "reward": null,
      "pnl": null,
      "epoch": 1,
      "training_time_hours": 0.1,
      "total_parameters": 20163,
      "wandb_run_id": null,
      "wandb_artifact_name": null
    },
    {
      "checkpoint_id": "example_cnn_20250624_213913",
      "model_name": "example_cnn",
      "model_type": "cnn",
      "file_path": "NN\\models\\saved\\example_cnn\\example_cnn_20250624_213913.pt",
      "created_at": "2025-06-24T21:39:13.563368",
      "file_size_mb": 0.0797882080078125,
      "performance_score": 85.85617724870231,
      "accuracy": 0.3797766367576808,
      "loss": 1.738881079808816,
      "val_accuracy": 0.31375868989071576,
      "val_loss": 1.758474336328537,
      "reward": null,
      "pnl": null,
      "epoch": 2,
      "training_time_hours": 0.2,
      "total_parameters": 20163,
      "wandb_run_id": null,
      "wandb_artifact_name": null
    },
    {
      "checkpoint_id": "example_cnn_20250624_213913",
      "model_name": "example_cnn",
      "model_type": "cnn",
      "file_path": "NN\\models\\saved\\example_cnn\\example_cnn_20250624_213913.pt",
      "created_at": "2025-06-24T21:39:13.566494",
      "file_size_mb": 0.0797882080078125,
      "performance_score": 96.86696983784515,
      "accuracy": 0.41565501055141396,
      "loss": 1.731468873500252,
      "val_accuracy": 0.38848400580514414,
      "val_loss": 1.8154629243104177,
      "reward": null,
      "pnl": null,
      "epoch": 3,
      "training_time_hours": 0.30000000000000004,
      "total_parameters": 20163,
      "wandb_run_id": null,
      "wandb_artifact_name": null
    },
    {
      "checkpoint_id": "example_cnn_20250624_213913",
      "model_name": "example_cnn",
      "model_type": "cnn",
      "file_path": "NN\\models\\saved\\example_cnn\\example_cnn_20250624_213913.pt",
      "created_at": "2025-06-24T21:39:13.569547",
      "file_size_mb": 0.0797882080078125,
      "performance_score": 106.29887197896815,
      "accuracy": 0.4639872237832544,
      "loss": 1.4731813440281318,
      "val_accuracy": 0.4291565645756503,
      "val_loss": 1.5423255128941882,
      "reward": null,
      "pnl": null,
      "epoch": 4,
      "training_time_hours": 0.4,
      "total_parameters": 20163,
      "wandb_run_id": null,
      "wandb_artifact_name": null
    },
    {
      "checkpoint_id": "example_cnn_20250624_213913",
      "model_name": "example_cnn",
      "model_type": "cnn",
      "file_path": "NN\\models\\saved\\example_cnn\\example_cnn_20250624_213913.pt",
      "created_at": "2025-06-24T21:39:13.575375",
      "file_size_mb": 0.0797882080078125,
      "performance_score": 115.87168812846218,
      "accuracy": 0.5256293272461906,
      "loss": 1.3264778472364203,
      "val_accuracy": 0.46011511860837684,
      "val_loss": 1.3762786097581432,
      "reward": null,
      "pnl": null,
      "epoch": 5,
      "training_time_hours": 0.5,
      "total_parameters": 20163,
      "wandb_run_id": null,
      "wandb_artifact_name": null
    }
  ],
  "example_manual": [
    {
      "checkpoint_id": "example_manual_20250624_213913",
      "model_name": "example_manual",
      "model_type": "cnn",
      "file_path": "NN\\models\\saved\\example_manual\\example_manual_20250624_213913.pt",
      "created_at": "2025-06-24T21:39:13.578488",
      "file_size_mb": 0.0018634796142578125,
      "performance_score": 186.07000000000002,
      "accuracy": 0.85,
      "loss": 0.45,
      "val_accuracy": 0.82,
      "val_loss": 0.48,
      "reward": null,
      "pnl": null,
      "epoch": 25,
      "training_time_hours": 2.5,
      "total_parameters": 33,
      "wandb_run_id": null,
      "wandb_artifact_name": null
    }
  ]
 }
--- a/_dev/notes.md
+++ b/_dev/notes.md
@@ -0,0 +1,6 @@
 how we manage our training W&B checkpoints?  we need to clean up old checlpoints. for every model we keep 5 checkpoints maximum and rotate them. by default  we always load te best, and during training when we save new we discard the 6th ordered by performance
 add integration of the checkpoint manager to all training pipelines
 we stopped showing executed trades on the chart. let's add them back
--- a/cleanup_checkpoints.py
+++ b/cleanup_checkpoints.py
@@ -0,0 +1,186 @@
 #!/usr/bin/env python3
 """
 Checkpoint Cleanup and Migration Script
 This script helps clean up existing checkpoints and migrate to the new 
 checkpoint management system with W&B integration.
 """
 import os
 import logging
 import shutil
 from pathlib import Path
 from datetime import datetime
 from typing import List, Dict, Any
 import torch
 from utils.checkpoint_manager import get_checkpoint_manager, CheckpointMetadata
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 logger = logging.getLogger(__name__)
 class CheckpointCleanup:
    def __init__(self):
        self.saved_models_dir = Path("NN/models/saved")
        self.checkpoint_manager = get_checkpoint_manager()
    def analyze_existing_checkpoints(self) -> Dict[str, Any]:
        logger.info("Analyzing existing checkpoint files...")
        analysis = {
            'total_files': 0,
            'total_size_mb': 0.0,
            'model_types': {},
            'file_patterns': {},
            'potential_duplicates': []
        }
        if not self.saved_models_dir.exists():
            logger.warning(f"Saved models directory not found: {self.saved_models_dir}")
            return analysis
        for pt_file in self.saved_models_dir.rglob("*.pt"):
            try:
                file_size_mb = pt_file.stat().st_size / (1024 * 1024)
                analysis['total_files'] += 1
                analysis['total_size_mb'] += file_size_mb
                filename = pt_file.name
                if 'cnn' in filename.lower():
                    model_type = 'cnn'
                elif 'dqn' in filename.lower() or 'rl' in filename.lower():
                    model_type = 'rl'
                elif 'agent' in filename.lower():
                    model_type = 'rl'
                else:
                    model_type = 'unknown'
                if model_type not in analysis['model_types']:
                    analysis['model_types'][model_type] = {'count': 0, 'size_mb': 0.0}
                analysis['model_types'][model_type]['count'] += 1
                analysis['model_types'][model_type]['size_mb'] += file_size_mb
                base_name = filename.split('_')[0] if '_' in filename else filename.replace('.pt', '')
                if base_name not in analysis['file_patterns']:
                    analysis['file_patterns'][base_name] = []
                analysis['file_patterns'][base_name].append({
                    'path': str(pt_file),
                    'size_mb': file_size_mb,
                    'modified': datetime.fromtimestamp(pt_file.stat().st_mtime)
                })
            except Exception as e:
                logger.error(f"Error analyzing {pt_file}: {e}")
        for base_name, files in analysis['file_patterns'].items():
            if len(files) > 5:  # More than 5 files with same base name
                analysis['potential_duplicates'].append({
                    'base_name': base_name,
                    'count': len(files),
                    'total_size_mb': sum(f['size_mb'] for f in files),
                    'files': files
                })
        logger.info(f"Analysis complete:")
        logger.info(f"  Total files: {analysis['total_files']}")
        logger.info(f"  Total size: {analysis['total_size_mb']:.2f} MB")
        logger.info(f"  Model types: {analysis['model_types']}")
        logger.info(f"  Potential duplicates: {len(analysis['potential_duplicates'])}")
        return analysis
    def cleanup_duplicates(self, dry_run: bool = True) -> Dict[str, Any]:
        logger.info(f"Starting duplicate cleanup (dry_run={dry_run})...")
        cleanup_results = {
            'removed': 0,
            'kept': 0,
            'space_saved_mb': 0.0,
            'details': []
        }
        analysis = self.analyze_existing_checkpoints()
        for duplicate_group in analysis['potential_duplicates']:
            base_name = duplicate_group['base_name']
            files = duplicate_group['files']
            # Sort by modification time (newest first)
            files.sort(key=lambda x: x['modified'], reverse=True)
            logger.info(f"Processing {base_name}: {len(files)} files")
            # Keep only the 5 newest files
            for i, file_info in enumerate(files):
                if i < 5:  # Keep first 5 (newest)
                    cleanup_results['kept'] += 1
                    cleanup_results['details'].append({
                        'action': 'kept',
                        'file': file_info['path']
                    })
                else:  # Remove the rest
                    if not dry_run:
                        try:
                            Path(file_info['path']).unlink()
                            logger.info(f"Removed: {file_info['path']}")
                        except Exception as e:
                            logger.error(f"Error removing {file_info['path']}: {e}")
                            continue
                    cleanup_results['removed'] += 1
                    cleanup_results['space_saved_mb'] += file_info['size_mb']
                    cleanup_results['details'].append({
                        'action': 'removed',
                        'file': file_info['path'],
                        'size_mb': file_info['size_mb']
                    })
        logger.info(f"Cleanup {'simulation' if dry_run else 'complete'}:")
        logger.info(f"  Kept: {cleanup_results['kept']}")
        logger.info(f"  Removed: {cleanup_results['removed']}")
        logger.info(f"  Space saved: {cleanup_results['space_saved_mb']:.2f} MB")
        return cleanup_results
 def main():
    logger.info("=== Checkpoint Cleanup Tool ===")
    cleanup = CheckpointCleanup()
    # Analyze existing checkpoints
    logger.info("\\n1. Analyzing existing checkpoints...")
    analysis = cleanup.analyze_existing_checkpoints()
    if analysis['total_files'] == 0:
        logger.info("No checkpoint files found.")
        return
    # Show potential space savings
    total_duplicates = sum(len(group['files']) - 5 for group in analysis['potential_duplicates'] if len(group['files']) > 5)
    if total_duplicates > 0:
        logger.info(f"\\nFound {total_duplicates} files that could be cleaned up")
        # Dry run first
        logger.info("\\n2. Simulating cleanup...")
        dry_run_results = cleanup.cleanup_duplicates(dry_run=True)
        if dry_run_results['removed'] > 0:
            proceed = input(f"\\nProceed with cleanup? Will remove {dry_run_results['removed']} files "
                           f"and save {dry_run_results['space_saved_mb']:.2f} MB. (y/n): ").lower().strip() == 'y'
            if proceed:
                logger.info("\\n3. Performing actual cleanup...")
                cleanup_results = cleanup.cleanup_duplicates(dry_run=False)
                logger.info("\\n=== Cleanup Complete ===")
            else:
                logger.info("Cleanup cancelled.")
        else:
            logger.info("No files to remove.")
    else:
        logger.info("No duplicate files found that need cleanup.")
 if __name__ == "__main__":
    main()
--- a/example_checkpoint_usage.py
+++ b/example_checkpoint_usage.py
@@ -0,0 +1,148 @@
 #!/usr/bin/env python3
 """
 Example: Using the Checkpoint Management System
 """
 import logging
 import torch
 import torch.nn as nn
 import numpy as np
 from datetime import datetime
 from utils.checkpoint_manager import save_checkpoint, load_best_checkpoint, get_checkpoint_manager
 from utils.training_integration import get_training_integration
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
 class ExampleCNN(nn.Module):
    def __init__(self, input_channels=5, num_classes=3):
        super().__init__()
        self.conv1 = nn.Conv2d(input_channels, 32, 3, padding=1)
        self.conv2 = nn.Conv2d(32, 64, 3, padding=1)
        self.pool = nn.AdaptiveAvgPool2d((1, 1))
        self.fc = nn.Linear(64, num_classes)
    def forward(self, x):
        x = torch.relu(self.conv1(x))
        x = torch.relu(self.conv2(x))
        x = self.pool(x)
        x = x.view(x.size(0), -1)
        return self.fc(x)
 def example_cnn_training():
    logger.info("=== CNN Training Example ===")
    model = ExampleCNN()
    training_integration = get_training_integration()
    for epoch in range(5):  # Simulate 5 epochs
        # Simulate training metrics
        train_loss = 2.0 - (epoch * 0.15) + np.random.normal(0, 0.1)
        train_acc = 0.3 + (epoch * 0.06) + np.random.normal(0, 0.02)
        val_loss = train_loss + np.random.normal(0, 0.05)
        val_acc = train_acc - 0.05 + np.random.normal(0, 0.02)
        # Clamp values to realistic ranges
        train_acc = max(0.0, min(1.0, train_acc))
        val_acc = max(0.0, min(1.0, val_acc))
        train_loss = max(0.1, train_loss)
        val_loss = max(0.1, val_loss)
        logger.info(f"Epoch {epoch+1}: train_acc={train_acc:.3f}, val_acc={val_acc:.3f}")
        # Save checkpoint
        saved = training_integration.save_cnn_checkpoint(
            cnn_model=model,
            model_name="example_cnn",
            epoch=epoch + 1,
            train_accuracy=train_acc,
            val_accuracy=val_acc,
            train_loss=train_loss,
            val_loss=val_loss,
            training_time_hours=0.1 * (epoch + 1)
        )
        if saved:
            logger.info(f" Checkpoint saved for epoch {epoch+1}")
        else:
            logger.info(f" Checkpoint not saved (performance not improved)")
    # Load the best checkpoint
    logger.info("\\nLoading best checkpoint...")
    best_result = load_best_checkpoint("example_cnn")
    if best_result:
        file_path, metadata = best_result
        logger.info(f"Best checkpoint: {metadata.checkpoint_id}")
        logger.info(f"Performance score: {metadata.performance_score:.4f}")
 def example_manual_checkpoint():
    logger.info("\\n=== Manual Checkpoint Example ===")
    model = nn.Linear(10, 3)
    performance_metrics = {
        'accuracy': 0.85,
        'val_accuracy': 0.82,
        'loss': 0.45,
        'val_loss': 0.48
    }
    training_metadata = {
        'epoch': 25,
        'training_time_hours': 2.5,
        'total_parameters': sum(p.numel() for p in model.parameters())
    }
    logger.info("Saving checkpoint manually...")
    metadata = save_checkpoint(
        model=model,
        model_name="example_manual",
        model_type="cnn",
        performance_metrics=performance_metrics,
        training_metadata=training_metadata,
        force_save=True
    )
    if metadata:
        logger.info(f" Manual checkpoint saved: {metadata.checkpoint_id}")
        logger.info(f"  Performance score: {metadata.performance_score:.4f}")
 def show_checkpoint_stats():
    logger.info("\\n=== Checkpoint Statistics ===")
    checkpoint_manager = get_checkpoint_manager()
    stats = checkpoint_manager.get_checkpoint_stats()
    logger.info(f"Total models: {stats['total_models']}")
    logger.info(f"Total checkpoints: {stats['total_checkpoints']}")
    logger.info(f"Total size: {stats['total_size_mb']:.2f} MB")
    for model_name, model_stats in stats['models'].items():
        logger.info(f"\\n{model_name}:")
        logger.info(f"  Checkpoints: {model_stats['checkpoint_count']}")
        logger.info(f"  Size: {model_stats['total_size_mb']:.2f} MB")
        logger.info(f"  Best performance: {model_stats['best_performance']:.4f}")
 def main():
    logger.info(" Checkpoint Management System Examples")
    logger.info("=" * 50)
    try:
        example_cnn_training()
        example_manual_checkpoint()
        show_checkpoint_stats()
        logger.info("\\n All examples completed successfully!")
        logger.info("\\nTo use in your training:")
        logger.info("1. Import: from utils.checkpoint_manager import save_checkpoint, load_best_checkpoint")
        logger.info("2. Or use: from utils.training_integration import get_training_integration")
        logger.info("3. Save checkpoints during training with performance metrics")
        logger.info("4. Load best checkpoints for inference or continued training")
    except Exception as e:
        logger.error(f"Error in examples: {e}")
        raise
 if __name__ == "__main__":
    main()
--- a/requirements.txt
+++ b/requirements.txt
@@ -13,4 +13,5 @@ torchaudio>=2.0.0
 scikit-learn>=1.3.0
 matplotlib>=3.7.0
 seaborn>=0.12.0
-asyncio-compat>=0.1.2
+asyncio-compat>=0.1.2
 wandb>=0.16.0
--- a/utils/checkpoint_manager.py
+++ b/utils/checkpoint_manager.py
@@ -0,0 +1,306 @@
 #!/usr/bin/env python3
 """
 Checkpoint Management System for W&B Training
 """
 import os
 import json
 import logging
 from datetime import datetime, timedelta
 from pathlib import Path
 from typing import Dict, List, Optional, Tuple, Any
 from dataclasses import dataclass, asdict
 from collections import defaultdict
 import torch
 try:
    import wandb
    WANDB_AVAILABLE = True
 except ImportError:
    WANDB_AVAILABLE = False
 logger = logging.getLogger(__name__)
@dataclass
 class CheckpointMetadata:
    checkpoint_id: str
    model_name: str
    model_type: str
    file_path: str
    created_at: datetime
    file_size_mb: float
    performance_score: float
    accuracy: Optional[float] = None
    loss: Optional[float] = None
    val_accuracy: Optional[float] = None
    val_loss: Optional[float] = None
    reward: Optional[float] = None
    pnl: Optional[float] = None
    epoch: Optional[int] = None
    training_time_hours: Optional[float] = None
    total_parameters: Optional[int] = None
    wandb_run_id: Optional[str] = None
    wandb_artifact_name: Optional[str] = None
    def to_dict(self) -> Dict[str, Any]:
        data = asdict(self)
        data['created_at'] = self.created_at.isoformat()
        return data
    @classmethod
    def from_dict(cls, data: Dict[str, Any]) -> 'CheckpointMetadata':
        data['created_at'] = datetime.fromisoformat(data['created_at'])
        return cls(**data)
 class CheckpointManager:
    def __init__(self, 
                 base_checkpoint_dir: str = "NN/models/saved",
                 max_checkpoints_per_model: int = 5,
                 metadata_file: str = "checkpoint_metadata.json",
                 enable_wandb: bool = True):
        self.base_dir = Path(base_checkpoint_dir)
        self.base_dir.mkdir(parents=True, exist_ok=True)
        self.max_checkpoints = max_checkpoints_per_model
        self.metadata_file = self.base_dir / metadata_file
        self.enable_wandb = enable_wandb and WANDB_AVAILABLE
        self.checkpoints: Dict[str, List[CheckpointMetadata]] = defaultdict(list)
        self._load_metadata()
        logger.info(f"Checkpoint Manager initialized - Max checkpoints per model: {self.max_checkpoints}")
    def save_checkpoint(self, model, model_name: str, model_type: str, 
                       performance_metrics: Dict[str, float],
                       training_metadata: Optional[Dict[str, Any]] = None,
                       force_save: bool = False) -> Optional[CheckpointMetadata]:
        try:
            timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
            checkpoint_id = f"{model_name}_{timestamp}"
            model_dir = self.base_dir / model_name
            model_dir.mkdir(exist_ok=True)
            checkpoint_path = model_dir / f"{checkpoint_id}.pt"
            performance_score = self._calculate_performance_score(performance_metrics)
            if not force_save and not self._should_save_checkpoint(model_name, performance_score):
                logger.info(f"Skipping checkpoint save for {model_name} - performance not improved")
                return None
            success = self._save_model_file(model, checkpoint_path, model_type)
            if not success:
                return None
            file_size_mb = checkpoint_path.stat().st_size / (1024 * 1024)
            metadata = CheckpointMetadata(
                checkpoint_id=checkpoint_id,
                model_name=model_name,
                model_type=model_type,
                file_path=str(checkpoint_path),
                created_at=datetime.now(),
                file_size_mb=file_size_mb,
                performance_score=performance_score,
                accuracy=performance_metrics.get('accuracy'),
                loss=performance_metrics.get('loss'),
                val_accuracy=performance_metrics.get('val_accuracy'),
                val_loss=performance_metrics.get('val_loss'),
                reward=performance_metrics.get('reward'),
                pnl=performance_metrics.get('pnl'),
                epoch=training_metadata.get('epoch') if training_metadata else None,
                training_time_hours=training_metadata.get('training_time_hours') if training_metadata else None,
                total_parameters=training_metadata.get('total_parameters') if training_metadata else None
            )
            if self.enable_wandb and wandb.run is not None:
                artifact_name = self._upload_to_wandb(checkpoint_path, metadata)
                metadata.wandb_run_id = wandb.run.id
                metadata.wandb_artifact_name = artifact_name
            self.checkpoints[model_name].append(metadata)
            self._rotate_checkpoints(model_name)
            self._save_metadata()
            logger.info(f"Saved checkpoint: {checkpoint_id} (score: {performance_score:.4f})")
            return metadata
        except Exception as e:
            logger.error(f"Error saving checkpoint for {model_name}: {e}")
            return None
    def load_best_checkpoint(self, model_name: str) -> Optional[Tuple[str, CheckpointMetadata]]:
        try:
            if model_name not in self.checkpoints or not self.checkpoints[model_name]:
                logger.warning(f"No checkpoints found for model: {model_name}")
                return None
            best_checkpoint = max(self.checkpoints[model_name], key=lambda x: x.performance_score)
            if not Path(best_checkpoint.file_path).exists():
                logger.error(f"Best checkpoint file not found: {best_checkpoint.file_path}")
                return None
            logger.info(f"Loading best checkpoint for {model_name}: {best_checkpoint.checkpoint_id}")
            return best_checkpoint.file_path, best_checkpoint
        except Exception as e:
            logger.error(f"Error loading best checkpoint for {model_name}: {e}")
            return None
    def _calculate_performance_score(self, metrics: Dict[str, float]) -> float:
        score = 0.0
        if 'accuracy' in metrics:
            score += metrics['accuracy'] * 100
        if 'val_accuracy' in metrics:
            score += metrics['val_accuracy'] * 100
        if 'loss' in metrics:
            score += max(0, 10 - metrics['loss'])
        if 'val_loss' in metrics:
            score += max(0, 10 - metrics['val_loss'])
        if 'reward' in metrics:
            score += metrics['reward']
        if 'pnl' in metrics:
            score += metrics['pnl']
        if score == 0.0 and metrics:
            first_metric = next(iter(metrics.values()))
            score = first_metric if first_metric > 0 else 0.1
        return max(score, 0.1)
    def _should_save_checkpoint(self, model_name: str, performance_score: float) -> bool:
        if model_name not in self.checkpoints or not self.checkpoints[model_name]:
            return True
        if len(self.checkpoints[model_name]) < self.max_checkpoints:
            return True
        worst_score = min(cp.performance_score for cp in self.checkpoints[model_name])
        return performance_score > worst_score
    def _save_model_file(self, model, file_path: Path, model_type: str) -> bool:
        try:
            if hasattr(model, 'state_dict'):
                torch.save({
                    'model_state_dict': model.state_dict(),
                    'model_type': model_type,
                    'saved_at': datetime.now().isoformat()
                }, file_path)
            else:
                torch.save(model, file_path)
            return True
        except Exception as e:
            logger.error(f"Error saving model file {file_path}: {e}")
            return False
    def _rotate_checkpoints(self, model_name: str):
        checkpoint_list = self.checkpoints[model_name]
        if len(checkpoint_list) <= self.max_checkpoints:
            return
        checkpoint_list.sort(key=lambda x: x.performance_score, reverse=True)
        to_remove = checkpoint_list[self.max_checkpoints:]
        self.checkpoints[model_name] = checkpoint_list[:self.max_checkpoints]
        for checkpoint in to_remove:
            try:
                file_path = Path(checkpoint.file_path)
                if file_path.exists():
                    file_path.unlink()
                logger.info(f"Rotated out checkpoint: {checkpoint.checkpoint_id}")
            except Exception as e:
                logger.error(f"Error removing rotated checkpoint {checkpoint.checkpoint_id}: {e}")
    def _upload_to_wandb(self, file_path: Path, metadata: CheckpointMetadata) -> Optional[str]:
        try:
            if not self.enable_wandb or wandb.run is None:
                return None
            artifact_name = f"{metadata.model_name}_checkpoint"
            artifact = wandb.Artifact(artifact_name, type="model")
            artifact.add_file(str(file_path))
            wandb.log_artifact(artifact)
            return artifact_name
        except Exception as e:
            logger.error(f"Error uploading to W&B: {e}")
            return None
    def _load_metadata(self):
        try:
            if self.metadata_file.exists():
                with open(self.metadata_file, 'r') as f:
                    data = json.load(f)
                for model_name, checkpoint_list in data.items():
                    self.checkpoints[model_name] = [
                        CheckpointMetadata.from_dict(cp_data)
                        for cp_data in checkpoint_list
                    ]
                logger.info(f"Loaded metadata for {len(self.checkpoints)} models")
        except Exception as e:
            logger.error(f"Error loading checkpoint metadata: {e}")
    def _save_metadata(self):
        try:
            data = {}
            for model_name, checkpoint_list in self.checkpoints.items():
                data[model_name] = [cp.to_dict() for cp in checkpoint_list]
            with open(self.metadata_file, 'w') as f:
                json.dump(data, f, indent=2)
        except Exception as e:
            logger.error(f"Error saving checkpoint metadata: {e}")
    def get_checkpoint_stats(self):
        """Get statistics about managed checkpoints"""
        stats = {
            'total_models': len(self.checkpoints),
            'total_checkpoints': sum(len(checkpoints) for checkpoints in self.checkpoints.values()),
            'total_size_mb': 0.0,
            'models': {}
        }
        for model_name, checkpoint_list in self.checkpoints.items():
            if not checkpoint_list:
                continue
            model_size = sum(cp.file_size_mb for cp in checkpoint_list)
            best_checkpoint = max(checkpoint_list, key=lambda x: x.performance_score)
            stats['models'][model_name] = {
                'checkpoint_count': len(checkpoint_list),
                'total_size_mb': model_size,
                'best_performance': best_checkpoint.performance_score,
                'best_checkpoint_id': best_checkpoint.checkpoint_id,
                'latest_checkpoint': max(checkpoint_list, key=lambda x: x.created_at).checkpoint_id
            }
            stats['total_size_mb'] += model_size
        return stats
 _checkpoint_manager = None
 def get_checkpoint_manager() -> CheckpointManager:
    global _checkpoint_manager
    if _checkpoint_manager is None:
        _checkpoint_manager = CheckpointManager()
    return _checkpoint_manager
 def save_checkpoint(model, model_name: str, model_type: str,
                   performance_metrics: Dict[str, float],
                   training_metadata: Optional[Dict[str, Any]] = None,
                   force_save: bool = False) -> Optional[CheckpointMetadata]:
    return get_checkpoint_manager().save_checkpoint(
        model, model_name, model_type, performance_metrics, training_metadata, force_save
    )
 def load_best_checkpoint(model_name: str) -> Optional[Tuple[str, CheckpointMetadata]]:
    return get_checkpoint_manager().load_best_checkpoint(model_name)
--- a/utils/training_integration.py
+++ b/utils/training_integration.py
@@ -0,0 +1,204 @@
 #!/usr/bin/env python3
 """
 Training Integration for Checkpoint Management
 """
 import logging
 import torch
 from datetime import datetime
 from typing import Dict, Any, Optional
 from pathlib import Path
 from .checkpoint_manager import get_checkpoint_manager, save_checkpoint, load_best_checkpoint
 logger = logging.getLogger(__name__)
 class TrainingIntegration:
    def __init__(self, enable_wandb: bool = True):
        self.checkpoint_manager = get_checkpoint_manager()
        self.enable_wandb = enable_wandb
        if self.enable_wandb:
            self._init_wandb()
    def _init_wandb(self):
        try:
            import wandb
            if wandb.run is None:
                wandb.init(
                    project="gogo2-trading",
                    name=f"training_{datetime.now().strftime('%Y%m%d_%H%M%S')}",
                    config={
                        "max_checkpoints_per_model": self.checkpoint_manager.max_checkpoints,
                        "checkpoint_dir": str(self.checkpoint_manager.base_dir)
                    }
                )
                logger.info(f"Initialized W&B run: {wandb.run.id}")
        except ImportError:
            logger.warning("W&B not available - checkpoint management will work without it")
        except Exception as e:
            logger.error(f"Error initializing W&B: {e}")
    def save_cnn_checkpoint(self, 
                           cnn_model, 
                           model_name: str,
                           epoch: int,
                           train_accuracy: float,
                           val_accuracy: float,
                           train_loss: float,
                           val_loss: float,
                           training_time_hours: float = None) -> bool:
        try:
            performance_metrics = {
                'accuracy': train_accuracy,
                'val_accuracy': val_accuracy,
                'loss': train_loss,
                'val_loss': val_loss
            }
            training_metadata = {
                'epoch': epoch,
                'training_time_hours': training_time_hours,
                'total_parameters': self._count_parameters(cnn_model)
            }
            if self.enable_wandb:
                try:
                    import wandb
                    if wandb.run is not None:
                        wandb.log({
                            f"{model_name}/train_accuracy": train_accuracy,
                            f"{model_name}/val_accuracy": val_accuracy,
                            f"{model_name}/train_loss": train_loss,
                            f"{model_name}/val_loss": val_loss,
                            f"{model_name}/epoch": epoch
                        })
                except Exception as e:
                    logger.warning(f"Error logging to W&B: {e}")
            metadata = save_checkpoint(
                model=cnn_model,
                model_name=model_name,
                model_type='cnn',
                performance_metrics=performance_metrics,
                training_metadata=training_metadata
            )
            if metadata:
                logger.info(f"CNN checkpoint saved: {metadata.checkpoint_id}")
                return True
            else:
                logger.info(f"CNN checkpoint not saved (performance not improved)")
                return False
        except Exception as e:
            logger.error(f"Error saving CNN checkpoint: {e}")
            return False
    def save_rl_checkpoint(self,
                          rl_agent,
                          model_name: str,
                          episode: int,
                          avg_reward: float,
                          best_reward: float,
                          epsilon: float,
                          total_pnl: float = None) -> bool:
        try:
            performance_metrics = {
                'reward': avg_reward,
                'best_reward': best_reward
            }
            if total_pnl is not None:
                performance_metrics['pnl'] = total_pnl
            training_metadata = {
                'episode': episode,
                'epsilon': epsilon,
                'total_parameters': self._count_parameters(rl_agent)
            }
            if self.enable_wandb:
                try:
                    import wandb
                    if wandb.run is not None:
                        wandb.log({
                            f"{model_name}/avg_reward": avg_reward,
                            f"{model_name}/best_reward": best_reward,
                            f"{model_name}/epsilon": epsilon,
                            f"{model_name}/episode": episode
                        })
                        if total_pnl is not None:
                            wandb.log({f"{model_name}/total_pnl": total_pnl})
                except Exception as e:
                    logger.warning(f"Error logging to W&B: {e}")
            metadata = save_checkpoint(
                model=rl_agent,
                model_name=model_name,
                model_type='rl',
                performance_metrics=performance_metrics,
                training_metadata=training_metadata
            )
            if metadata:
                logger.info(f"RL checkpoint saved: {metadata.checkpoint_id}")
                return True
            else:
                logger.info(f"RL checkpoint not saved (performance not improved)")
                return False
        except Exception as e:
            logger.error(f"Error saving RL checkpoint: {e}")
            return False
    def load_best_model(self, model_name: str, model_class=None):
        try:
            result = load_best_checkpoint(model_name)
            if not result:
                logger.warning(f"No checkpoint found for model: {model_name}")
                return None
            file_path, metadata = result
            checkpoint = torch.load(file_path, map_location='cpu')
            logger.info(f"Loaded best checkpoint for {model_name}:")
            logger.info(f"  Performance score: {metadata.performance_score:.4f}")
            logger.info(f"  Created: {metadata.created_at}")
            if model_class and 'model_state_dict' in checkpoint:
                model = model_class()
                model.load_state_dict(checkpoint['model_state_dict'])
                return model
            return checkpoint
        except Exception as e:
            logger.error(f"Error loading best model {model_name}: {e}")
            return None
    def _count_parameters(self, model) -> int:
        try:
            if hasattr(model, 'parameters'):
                return sum(p.numel() for p in model.parameters())
            elif hasattr(model, 'policy_net'):
                policy_params = sum(p.numel() for p in model.policy_net.parameters())
                target_params = sum(p.numel() for p in model.target_net.parameters()) if hasattr(model, 'target_net') else 0
                return policy_params + target_params
            else:
                return 0
        except Exception:
            return 0
 _training_integration = None
 def get_training_integration() -> TrainingIntegration:
    global _training_integration
    if _training_integration is None:
        _training_integration = TrainingIntegration()
    return _training_integration