티스토리 뷰
VITON - Refinetwork 분석
3.3. Refinement Network VITON의 정제 네트워크 GR은 거친 흐린 영역이 변형 된 대상 품목의 현실적인 세부 사항을 활용하도록 훈련됩니다. 뒤틀린 의류 품목. 우리는 거친 샘플의 생성 된 영역의 세부 사항을 채우기 위해 대상 의류 이미지 C에서 직접 정보를 빌립니다. 그러나 제품 이미지를 직접 붙여 넣는 것은 사람의 자세와 몸 모양에 따라 변형 된 옷의 변형으로는 적합하지 않습니다. 따라서 그림 4에서와 같이 shape context matching [3]을 가진 thin plate spline (TPS) 변환을 추정하여 의류 항목을 왜곡한다.보다 구체적으로, 우리는 c의 전경 마스크를 추출하고 모양 컨텍스트 TPS warps [3] 이 마스크와 사람의 의복 마스크 (M) 사이에, 식 이 계산 된 TPS 파라미터는 대상 의류 이미지 (c)를 뒤틀린 버전 (c ')으로 변환하기 위해 추가로 적용된다. 결과적으로 뒤틀린 옷 이미지 참조 이미지 대상 의류 거친 결과 옷 마스크 뒤틀린 옷감 구성 마스크 세련된 결과 그림 5 : 본 방법의 다른 단계 출력. 인코더 - 디코더에 의해 생성 된 거친 합성 결과는 디테일 및 변형을 설명하기 위해 컴포지션 마스크를 학습함으로써 더욱 향상됩니다. 사람의 자세 및 몸 모양 정보를 따르고 목표 품목의 세부 사항을 완전히 보존합니다. 이 아이디어는 2D 합성 키포인트와 3D 포즈 추정이 뒤틀림에 사용되는 최근의 얼굴 합성을위한 2D / 3D 텍스처 뒤틀기 방법과 유사합니다 (52, 17). 반대로, 우리는 의류 아이템에 대한 정확한 주석이 없기 때문에 컨텍스트 기반 워핑 모양에 의존합니다. 형상 컨텍스트 매칭을 사용하여 TPS를 추정하는 잠재적 인 대안은 [23]에서와 같이 샴 네트워크를 통해 TPS 매개 변수를 학습하는 것입니다. 그러나, 이것은 특히 비열한 옷에 대해서는 도전적이며, 우리는 경험적으로 컨텍스트 모양 매칭을 직접 사용하면 가상 시운전에 더 나은 뒤틀림 결과를 제공한다는 것을 알게되었습니다.
또한 생성 된 합성 마스크 출력을 L1 표준 및 총 변이 (TV) 표준을 사용하여 GR로 정규화합니다. 세밀한 네트워크를위한 완전한 목적 함수는 다음과 같습니다.
여기서, λwarp 및 λTV는 각각 L1 표준 및 TV 표준에 대한 가중치를 나타낸다. 음의 L1 용어를 최소화하면 변형 된 의류 이미지에서 더 많은 정보를 활용하고 자세한 정보를 제공하도록 Google 모델을 장려합니다. 총 변이 형 정규화 기 || ∇ || 1는 생성 된 합성 마스크 α의 구배를 불리하게 공간적으로 매끄럽게 만들기 때문에 뒤틀린 영역에서 거친 결과로의 천이가 더 자연스럽게 보입니다. 그림 5는 우리의 방법과 다른 단계에서 생성 된 결과를 시각화합니다. 대상 의류 아이템과 사람의 표현을 감안할 때 인코더 - 디코더는 포즈, 신체 모양 및 얼굴이 보존 된 상태에서 거친 결과를 생성하는 반면, 대상 의류 아이템의 그래픽 및 텍스처와 같은 세부 사항은 누락됩니다. 의류 마스크를 기반으로 한 우리의 세련미 단계는 대상 의류 이미지를 왜곡시키고 합성 마스크를 예측하여 거친 합성 이미지에서 교체해야 할 영역을 결정합니다. 결론적으로, 대상 의류 이미지에서 "복사"된 중요한 세부 사항 (첫 번째 예제의 재료, 두 번째 예제의 텍스트 및 세 번째 예제의 패턴)은 해당 사람의 해당 의류 영역에 "붙여 넣기"됩니다.