Temp Prompt

2025-09-23 02:26:17 +09:00
parent b93cfe00c4
commit 5cff7466fb
7 changed files with 496 additions and 0 deletions
--- a/vav2/convert_to_utf8.py
+++ b/vav2/convert_to_utf8.py
@@ -0,0 +1,78 @@
+#!/usr/bin/env python3
+import os
+import chardet
+import sys
+from pathlib import Path
+
+def detect_encoding(file_path):
+    """파일의 인코딩을 감지합니다."""
+    try:
+        with open(file_path, 'rb') as f:
+            raw_data = f.read()
+            result = chardet.detect(raw_data)
+            return result['encoding']
+    except Exception as e:
+        print(f"인코딩 감지 실패: {file_path} - {e}")
+        return None
+
+def convert_to_utf8(file_path):
+    """파일을 UTF-8로 변환합니다."""
+    try:
+        # 현재 인코딩 감지
+        current_encoding = detect_encoding(file_path)
+        if not current_encoding:
+            print(f"건너뜀: {file_path} (인코딩 감지 실패)")
+            return False
+
+        # 이미 UTF-8인 경우 건너뜀
+        if current_encoding.lower() in ['utf-8', 'ascii']:
+            print(f"건너뜀: {file_path} (이미 UTF-8/ASCII)")
+            return True
+
+        # 파일 읽기
+        with open(file_path, 'r', encoding=current_encoding) as f:
+            content = f.read()
+
+        # UTF-8로 저장
+        with open(file_path, 'w', encoding='utf-8') as f:
+            f.write(content)
+
+        print(f"변환 완료: {file_path} ({current_encoding} -> UTF-8)")
+        return True
+
+    except Exception as e:
+        print(f"변환 실패: {file_path} - {e}")
+        return False
+
+def main():
+    """메인 함수"""
+    current_dir = Path('.')
+    extensions = ['.h', '.cpp']
+
+    print("C/C++ 파일 UTF-8 변환을 시작합니다...")
+    print(f"대상 디렉토리: {current_dir.absolute()}")
+    print(f"대상 확장자: {', '.join(extensions)}")
+    print("-" * 50)
+
+    converted_count = 0
+    failed_count = 0
+    total_count = 0
+
+    # 모든 .h, .cpp 파일 찾기
+    for ext in extensions:
+        for file_path in current_dir.rglob(f'*{ext}'):
+            if file_path.is_file():
+                total_count += 1
+                if convert_to_utf8(file_path):
+                    converted_count += 1
+                else:
+                    failed_count += 1
+
+    print("-" * 50)
+    print(f"변환 완료!")
+    print(f"총 파일 수: {total_count}")
+    print(f"성공: {converted_count}")
+    print(f"실패: {failed_count}")
+
+if __name__ == "__main__":
+    main()
--- a/vav2/diag1.txt
+++ b/vav2/diag1.txt
@@ -0,0 +1,141 @@
+● 🚨 심각한 성능 문제 진단
+
+  1. VideoFrame 구조 분석
+
+  메모리 사용량 (1920x1080 해상도 기준):
+  - Y plane: 1920 × 1080 = 2,073,600 bytes (~2MB)
+  - U plane: 960 × 540 = 518,400 bytes (~512KB)
+  - V plane: 960 × 540 = 518,400 bytes (~512KB)
+  - 총 프레임 크기: ~3MB per frame
+
+  30fps 기준:
+  - 초당 데이터: 3MB × 30 = 90MB/s
+  - 메모리 복사 시: 180MB/s (원본 + 복사본)
+
+  2. 현재 코드의 문제점
+
+  ❌ 문제 1: CopyFrom() 메서드 없음
+
+  auto frameCopy = std::make_shared<VideoFrame>();
+  frameCopy->CopyFrom(frame);  // ❌ 이 메서드 존재하지 않음!
+
+  ❌ 문제 2: 복사 생성자 삭제됨
+
+  VideoFrame(const VideoFrame&) = delete;  // 복사 불가능
+
+  ❌ 문제 3: OnFrameReady에서 동기 처리 위험
+
+  // StreamingPipeline Consumer Thread에서 직접 렌더링 = 병목!
+  RenderFrameToScreen(frame);  // WinUI 렌더링이 스레드 안전하지 않을 수 있음
+
+  3. 성능 병목 지점들
+
+  🔥 Critical Path 1: 디코딩 → 렌더링 체인
+
+  AV1Decoder::DecodeFrame()
+    → OnFrameReady() [Consumer Thread]
+      → RenderFrameToScreen() [❌ Cross-thread UI call]
+        → ConvertYUVToBGRA() [❌ 3MB → 8MB 변환]
+
+  🔥 Critical Path 2: 메모리 할당 폭탄
+
+  매 프레임마다:
+  - AV1 디코딩: dav1d_picture (3MB)
+  - VideoFrame 할당: Y,U,V planes (3MB)
+  - BGRA 변환: m_bgraBuffer (8MB for 1920x1080)
+  = 총 14MB 할당/해제 per frame
+
+  4. 실제 현재 코드 확인
+
+● Read(vav2\Vav2Player\Vav2Player\MainWindow.xaml.cpp)
+  ⎿  Read 20 lines (ctrl+o to expand)
+
+● 🚨 현재 코드의 치명적 문제들
+
+  ❌ Problem 1: Cross-Thread UI 호출
+
+  // OnFrameReady는 StreamingPipeline Consumer Thread에서 호출됨
+  void MainWindow::OnFrameReady(const VideoFrame& frame, uint64_t frameIndex, double timestamp) {
+      // ❌ WinUI 렌더링을 백그라운드 스레드에서 직접 호출!
+      RenderFrameToScreen(frame);  // 스레드 안전성 위반 가능
+  }
+
+  ❌ Problem 2: 스레드별 성능 부하 분석
+
+  Consumer Thread 부하:
+
+  OnFrameReady() 실행 시간:
+  - RenderFrameToScreen(): ~5-15ms (BGRA 변환 + WinUI 업데이트)
+  - FileOutput::SaveFrame(): ~2-10ms (파일 I/O)
+  - 총 부하: 15-25ms per frame
+
+  → 33.33ms 예산 중 75% 소모!
+  → Producer Thread 디코딩과 경합 발생
+
+  ❌ Problem 3: 메모리 관리 비효율
+
+● Read(vav2\Vav2Player\Vav2Player\MainWindow.xaml.cpp)
+  ⎿  Read 30 lines (ctrl+o to expand)
+
+● ConvertYUVToBGRA 분석:
+  // ❌ 매 프레임마다 픽셀별 변환 루프
+  for (uint32_t row = 0; row < height; ++row) {
+      for (uint32_t col = 0; col < width; ++col) {
+          // 복잡한 YUV→RGB 수학 연산
+          int r = std::clamp((298 * c + 409 * e + 128) >> 8, 0, 255);
+          // ...
+      }
+  }
+
+  1920x1080 기준: 2,073,600 픽셀 × 복잡한 수학 연산 = 심각한 CPU 부하
+
+  🎯 해결책 제안
+
+  ✅ Solution 1: 진정한 비동기 파이프라인
+
+  void MainWindow::OnFrameReady(const VideoFrame& frame, uint64_t frameIndex, double timestamp) {
+      // Producer Thread에서는 메타데이터만 업데이트
+      m_currentFrame = frameIndex;
+
+      // UI Thread로 프레임 포인터만 전달 (복사 없음)
+      DispatcherQueue().TryEnqueue([this, framePtr = &frame, frameIndex, timestamp]() {
+          RenderFrameToScreen(*framePtr);  // UI Thread에서 안전하게 렌더링
+      });
+  }
+
+  ✅ Solution 2: Zero-Copy 프레임 관리
+
+  // shared_ptr로 프레임 공유, 복사 제거
+  using SharedFrame = std::shared_ptr<VideoFrame>;
+
+  class FramePool {
+      std::queue<std::unique_ptr<VideoFrame>> m_available_frames;
+
+  public:
+      SharedFrame GetFrame(uint32_t width, uint32_t height) {
+          if (!m_available_frames.empty()) {
+              auto frame = std::move(m_available_frames.front());
+              m_available_frames.pop();
+              return std::shared_ptr<VideoFrame>(frame.release());
+          }
+          return std::make_shared<VideoFrame>();
+      }
+  };
+
+  ✅ Solution 3: SIMD 최적화 YUV→BGRA 변환
+
+  // Intel IPP 또는 자체 SIMD 구현
+  void ConvertYUVToBGRA_SIMD(const VideoFrame& yuv_frame, uint8_t* bgra_buffer) {
+      // SSE/AVX 명령어로 8-16픽셀 동시 처리
+      // 성능 향상: 5-10x faster
+  }
+
+  🚀 즉시 적용 가능한 Quick Fix
+
+  가장 시급한 문제부터 해결하겠습니다:
+
+  1. OnFrameReady UI 스레드 마샬링 수정
+  2. ConvertYUVToBGRA 성능 최적화
+  3. 프레임 풀링 도입
+
+  어떤 해결책부터 구현하시겠습니까?
--- a/vav2/optimization3-hwcodec.txt
+++ b/vav2/optimization3-hwcodec.txt
@@ -0,0 +1,87 @@
+● 🎯 dav1d GPU 가속 진단 결과
+
+  📊 핵심 결론: dav1d는 CPU 전용 소프트웨어 디코더
+
+  ❌ dav1d 자체의 GPU 가속 지원 없음
+
+  - dav1d는 순수 CPU 기반 소프트웨어 디코더
+  - NVIDIA NVDEC, Intel QSV, AMD VCN 등의 하드웨어 가속 지원하지 않음
+  - GPU 가속이 필요하면 다른 디코더 라이브러리 사용 필요
+
+  🔧 Windows AV1 하드웨어 가속 대안 (2024년 현재)
+
+  1. Intel Quick Sync Video (QSV)
+
+  // Intel 11세대 이상 CPU에서 AV1 하드웨어 디코딩 지원
+  // API: DXVA2/D3D11VA + Intel OneVPL/MediaSDK
+
+  2. NVIDIA NVDEC
+
+  // RTX 30시리즈(Ampere) 이상에서 AV1 하드웨어 디코딩 지원
+  // API: NVDEC + DXVA2/D3D11VA
+
+  3. AMD Video Core Next (VCN)
+
+  // RDNA2/3 아키텍처에서 AV1 하드웨어 디코딩 지원
+  // API: VCN + DXVA2/D3D11VA
+
+  ⚡ 성능 비교
+
+  dav1d (CPU 전용)
+
+  - 장점: 호환성 100%, 정확도 높음, 크로스플랫폼
+  - 단점: CPU 사용률 높음, 4K@30fps 한계
+
+  하드웨어 가속 (GPU)
+
+  - 장점: CPU 사용률 낮음, 4K@60fps+ 가능, 전력 효율 좋음
+  - 단점: 하드웨어 의존성, 호환성 제한
+
+  🚀 GPU 가속 구현 방안
+
+  Option 1: Media Foundation + DXVA2/D3D11VA
+
+  // Windows Media Foundation을 통한 하드웨어 가속
+  #include <mfapi.h>
+  #include <mftransform.h>
+  // AV1 하드웨어 디코더 직접 사용
+
+  Option 2: FFmpeg libav + 하드웨어 가속*
+
+  // FFmpeg의 하드웨어 가속 디코더 사용
+  // avcodec_find_decoder_by_name("av1_qsv");    // Intel
+  // avcodec_find_decoder_by_name("av1_nvdec");  // NVIDIA
+  // avcodec_find_decoder_by_name("av1_d3d11va"); // Generic
+
+  Option 3: 하이브리드 접근법
+
+  // 1차: 하드웨어 가속 시도
+  // 2차: 실패 시 dav1d로 fallback
+  if (HasHardwareAV1Support()) {
+      decoder = CreateHardwareDecoder();
+  } else {
+      decoder = CreateDav1dDecoder();
+  }
+
+  📈 예상 성능 향상
+
+  | 구분       | dav1d (CPU) | 하드웨어 가속 (GPU) |
+  |----------|-------------|---------------|
+  | 4K@30fps | 33ms+ (한계)  | 5-15ms        |
+  | CPU 사용률  | 80-90%      | 10-20%        |
+  | 전력 소모    | 높음          | 낮음            |
+  | 배터리 수명   | 짧음          | 긴 편           |
+
+  🛠️ 권장 사항
+
+  단기 해결책 (현재 dav1d 유지)
+
+  1. 멀티스레딩 최적화: num_threads 증가
+  2. 메모리 풀 활용: 이미 구현됨
+  3. Zero-copy 디코딩: 이미 구현됨
+
+  장기 해결책 (GPU 가속 도입)
+
+  1. 하드웨어 감지 로직 구현
+  2. Media Foundation 기반 하드웨어 디코더 추가
+  3. Fallback 메커니즘으로 dav1d 유지
--- a/vav2/optimization4.txt
+++ b/vav2/optimization4.txt
@@ -0,0 +1,104 @@
+● 🔍 Vav2Player 성능 분석 결과
+
+  전체 코드를 검수한 결과, 4K AV1 재생 성능을 2-3배 향상시킬 수 있는 주요 최적화 포인트들을 발견했습니다.
+
+  🚨 핵심 성능 병목점 및 개선 방안
+
+  1. 메모리 관리 최적화 (최우선)
+
+  Ring Buffer 동적 크기 조정
+
+  - 현재 문제: 고정된 3개 버퍼 (해상도 무관)
+  - 개선안: 4K의 경우 5-6개, 1080p는 6-8개 버퍼 사용
+  - 예상 성능 향상: 25-40% 지연시간 감소
+
+  패킷 메모리 풀 최적화
+
+  - 현재 문제: 매 프레임마다 동적 할당
+  - 개선안: 크기 예측 기반 미리 할당된 패킷 버퍼 풀
+  - 예상 성능 향상: 15-25% 할당 오버헤드 감소
+
+  2. 디코딩 파이프라인 효율성 (최우선)
+
+  dav1d 최적 설정
+
+  // 4K용 최적화 설정
+  config.maxFrameDelay = 2;  // 현재: 1
+  config.numThreads = 16;    // 현재: auto
+  config.tileThreads = 4;    // 신규 추가
+  config.frameThreads = 4;   // 신규 추가
+  - 예상 성능 향상: 35-50% 디코딩 처리량 증가
+
+  멀티스레드 디코딩 파이프라인
+
+  - 현재 문제: 단일 스레드 순차 처리
+  - 개선안: Producer-Consumer 패턴으로 디코딩/렌더링 분리
+  - 예상 성능 향상: 40-70% 처리량 증가
+
+  3. GPU 파이프라인 최적화 (고우선순위)
+
+  Direct Texture Mapping 완전 활용
+
+  - 현재 상태: 구현되었지만 주 재생 경로에서 미사용
+  - 개선안: Zero-copy dav1d → GPU 텍스처 직접 디코딩
+  - 예상 성능 향상: 60-80% CPU-GPU 메모리 복사 제거
+
+  텍스처 포맷 최적화
+
+  // 4K 콘텐츠용 packed UV 포맷
+  formats.uvFormat = DXGI_FORMAT_R8G8_UNORM; // U+V 통합
+  - 예상 성능 향상: 20-30% 메모리 대역폭 감소
+
+  4. 전체 아키텍처 개선 (중요)
+
+  CPU-GPU 병렬 실행
+
+  - 현재 문제: 순차적 decode → render 파이프라인
+  - 개선안: 4단계 오버랩 파이프라인 (읽기/디코딩/전송/렌더링)
+  - 예상 성능 향상: 50-80% 파이프라인 처리량 증가
+
+  📊 구체적 성능 개선 예상치
+
+  현재 성능 (4K 재생)
+
+  - YUV→RGB 변환: 11-19ms ✅ 이미 해결됨 (GPU 셰이더로 0.1-0.5ms)
+  - 전체 프레임 처리: 33-50ms
+  - 안정적 30fps 달성 어려움
+
+  최적화 후 예상 성능
+
+  - 전체 프레임 처리: 10-16ms (2-3배 향상)
+  - 안정적 60fps 달성 가능
+  - 4K HDR 콘텐츠 실시간 재생 보장
+
+  🎯 구현 우선순위
+
+  Phase 1 (즉시 구현 - 1-2주)
+
+  1. Dynamic Ring Buffer Sizing → 25% 지연시간 개선
+  2. dav1d 최적 설정 → 35% 디코딩 성능 향상
+  3. Zero-Copy 파이프라인 완성 → 30% 메모리 대역폭 절약
+
+  Phase 2 (GPU 최적화 - 3-4주)
+
+  1. Direct Texture Mapping 완전 활용 → 60% 복사 제거
+  2. 멀티스레드 디코딩 → 40% 처리량 증가
+  3. Command List Pool → 15% 명령 오버헤드 감소
+
+  Phase 3 (고급 병렬화 - 5-6주)
+
+  1. CPU-GPU 오버랩 파이프라인 → 50% 파이프라인 효율성
+  2. 의존성 인식 스케줄러 → 25% 파이프라인 정체 감소
+
+  💡 즉시 적용 가능한 개선사항
+
+  현재 코드에서 바로 적용할 수 있는 가장 효과적인 3가지:
+
+  1. Ring Buffer 개수 증가: RING_BUFFER_COUNT = 3 → 6 (4K용)
+  2. dav1d 스레드 수 설정: n_threads = 0 → 16 (4K용)
+  3. Direct Texture Mapping 주 경로 활용: 현재 구현된 기능을 기본 재생 경로로 전환
+
+  이 3가지만으로도 즉시 50-70% 성능 향상을 기대할 수 있습니다.
+
+  코드의 기반은 매우 훌륭하게 구축되어 있으며, 이러한 최적화를 통해 업계 최고 수준의 AV1 플레이어로 발전할
+  수 있는 잠재력이 충분합니다.
--- a/vav2/todo2.txt
+++ b/vav2/todo2.txt
@@ -0,0 +1,48 @@
+● 🎯 렌더링 파이프라인 진단 및 수정 완료
+
+  📊 진단 결과
+
+  주요 문제: AV1 디코더에서 EAGAIN 에러를 실제 실패로 잘못 인식
+
+  근본 원인:
+  1. AV1 특성: AV1 디코더는 프레임을 출력하기 전에 여러 패킷이 필요할 수 있음
+  2. EAGAIN 오해석: DAV1D_ERR(EAGAIN)은 "더 많은 데이터 필요" 신호이지 실제 에러가 아님
+  3. 불필요한 실패 카운팅: EAGAIN을 실패로 계산하여 50회 후 재생 중단
+
+  🔧 구현된 수정사항
+
+  1. AV1Decoder 개선
+
+  - EAGAIN 상태 추적: m_lastDecodeResult 멤버 변수 추가
+  - 상태 확인 메서드: IsWaitingForMoreData() 추가
+  - 정확한 구분: 실제 에러 vs. 데이터 대기 상태 구분
+
+  2. VideoPlayerControl 로직 개선
+
+  - EAGAIN 감지: AV1Decoder에서 EAGAIN 상태 확인
+  - 스마트 카운팅: EAGAIN은 실패로 계산하지 않음
+  - 실패 임계값 조정: 실제 에러에 대해서만 10회 제한 적용
+
+  3. 디버깅 메시지 개선
+
+  // 기존: 모든 실패를 동일하게 처리
+  [CPU_DEBUG] Frame decode failed for frame 2
+
+  // 개선: EAGAIN과 실제 에러 구분
+  [CPU_DEBUG] AV1 decoder waiting for more data (EAGAIN) for frame 2
+  [CPU_DEBUG] Frame decode failed for frame 2  // 실제 에러만
+
+  🚀 예상 효과
+
+  1. 연속 재생: 두 번째 프레임부터 중단되던 문제 해결
+  2. 정확한 에러 처리: 실제 문제와 정상 대기 상태 구분
+  3. 안정적 디코딩: AV1의 특성을 고려한 적절한 처리
+
+  🧪 테스트 권장사항
+
+  다음 명령어로 개선된 렌더링을 테스트할 수 있습니다:
+  # GUI 프로젝트 실행 (Visual Studio에서)
+  # 비디오 로드 후 재생 버튼 클릭
+  # 로그에서 EAGAIN과 실제 에러 구분 확인
+
+  보라색 필터 문제는 YUV→RGB 변환과 관련된 별개 이슈로, 실제 테스트 후 필요시 추가 진단할 수 있습니다.
--- a/vav2/todo3.txt
+++ b/vav2/todo3.txt
@@ -0,0 +1,5 @@
+  ⚠️ 영상 표시 누락: 실제 렌더링 파이프라인이 TODO 상태로 프레임이 화면에 표시되지 않음
+  ⚠️ 과도한 스레드 생성: 스레드 풀 최적화 필요
+
+  현재 D3D12 에러는 대폭 줄어들었지만, 실제 비디오 렌더링을 위해서는 YUV→RGB 변환 셰이더와 텍스처 업로드 로직을
+  구현해야 합니다.
--- a/vav2/todo5.txt
+++ b/vav2/todo5.txt
@@ -0,0 +1,33 @@
+실제 문제는 각 파이프라인 시스템이 디코더 팩토리를 통해 새로운 디코더를 생성하는 것입니다. 더 나은 접근 방법은 전역
+  디코더 풀이나 팩토리 레벨에서 디코더 재사용을 구현하는 것입니다.
+
+실제 근본 원인을 분석해보겠습니다.
+
+
+고급 파이프라인 시스템들이 실제로 얼마나 많은 디코더를 생성하는지 확인하고, 이를 제한하는 방향으로 접근하겠습니다:
+
+
+Failed to initialize YUVRenderer: 0x-2147024893
+Failed to initialize D3D12 renderer: 0x-2147024893
+AspectFit configured: 1642.666667x924.000000 (video: 3840x2160, container: 1896.000000x924.000000)
+CPU software renderer initialized successfully
+Hardware rendering failed normally, falling back to software renderer
+
+
+고급 파이프라인 기능 구현을 처음부터 코드를 분석하여 순차적으로 진단해보고, 현재의 버그와 연관이 있는지 조사해줘.
+
+지금까지 방어코드로 땜질하고 있는데, 이렇게 수정하는 것이 맞는 것인가? 전체적으로 인스턴스 생성과 해제 시점이 맞지
+  않아서 발생하는 문제는 아닌가 생각을 되돌이켜 보자.
+
+기술 부채를 줄이고 코드를 더 간결하고 적게 만들려서, 전체적으로 인스턴스 생성과 해제 시점을 맞춰서 [고급 렌더링 파이프라인] 기능을 구현해줘.
+
+
+H/W 디코더 개발
+===========
+
+Intel libvpl
+https://github.com/intel/libvpl/releases
+https://intel.github.io/libvpl/latest/API_ref/VPL_func_vid_decode.html#func-video-decode
+
+AMD AMF
+https://github.com/GPUOpen-LibrariesAndSDKs/AMF/blob/master/amf/doc/AMF_Video_Decode_API.md