광학 흐름 추정은 높은 정밀도로 연속적인 프레임 간의 움직임 정보를 효과적으로 캡처할 수 있기 때문에 주로 높은 프레임률 이미지에 유리합니다. 높은 프레임 속도로 이미지를 캡처할 경우, 일반적으로 연속적인 프레임 간의 움직임은 작고, 이러한 프레임 간의 시간적 일관성은 높습니다. 이를 통해 광학 흐름 알고리즘이 움직임을 정확하게 추정하는 것이 더 쉬워집니다. 광학 흐름 추정이 높은 프레임률 이미지에 적합한 몇 가지 이유는 다음과 같습니다:
1. 소용량 변위: 높은 프레임률 이미지는 연속된 프레임 간의 변위가 더 작기 때문에 광학 흐름 알고리즘이 움직임을 추적하는 것이 더 쉽습니다. 광학 흐름 알고리즘은 프레임 속도가 낮은 시나리오와 같이 프레임 간에 상당한 간격이 있을 때 발생하는 큰 변위로 인해 어려움을 겪을 수 있습니다.
2. 더 높은 시간 분해능: 높은 프레임률 이미지는 더 높은 시간 해상도를 제공하여 광학 흐름 알고리즘이 더 낮은 프레임률에서 놓치거나 부정확하게 추정될 수 있는 빠르고 미묘한 움직임을 포착할 수 있습니다.
3. 정확도 향상: 프레임률이 높으면 모션 블러가 적고 폐색이 적어 광학 흐름 추정의 정확도가 향상됩니다. 모션 블러 및 폐색으로 인해 추정된 흐름에 오류가 발생할 수 있으므로 장면에서 개체의 실제 모션을 추적하기가 어렵습니다.
4. 소음에 대한 견고성: 프레임률이 높은 이미지는 연속 프레임 간의 시간적 일관성이 높기 때문에 노이즈에 더 강한 경향이 있습니다. 이를 통해 광학 흐름 알고리즘은 노이즈 또는 기타 아티팩트가 있는 경우에도 움직임을 더 잘 추정할 수 있습니다.
5. 실시간 애플리케이션 성능 향상: 높은 프레임률 이미지는 빠르고 정확한 모션 추정이 중요한 로봇 공학, 자율 주행 차량 및 비디오 게임과 같은 실시간 응용 프로그램에 필수적입니다. 광학 흐름 추정은 이러한 시스템이 변화하는 조건에 신속하고 효과적으로 대응할 수 있도록 하는 데 필요한 정보를 제공할 수 있습니다.
요약하면, 광학 흐름 추정은 작은 변위, 더 높은 시간 해상도, 향상된 정확도, 노이즈에 대한 견고성 및 실시간 애플리케이션에 대한 적합성으로 인해 연속적인 프레임 간의 움직임 정보를 정확하게 캡처할 수 있기 때문에 높은 프레임률 이미지에 유리합니다.
Optical flow with SSL
Yes, combining Optical Flow and Self-Supervised Learning (SSL) is indeed a promising direction in computer vision research. Here are some notable papers that have explored this combination:
1. **SMURF: Self-Teaching Multi-Frame Unsupervised RAFT with Full-Image Warping**
- **Abstract**: This paper presents SMURF, a method for unsupervised learning of optical flow that significantly improves the state of the art on various benchmarks. The method integrates architecture improvements from supervised optical flow with new ideas for unsupervised learning.
**SMURF: 전체 이미지 뒤틀림이 있는 셀프 티칭 멀티 프레임 비감독 RAFT**
- **추상**: 본 논문은 다양한 벤치마크에서 최신 기술을 크게 향상시키는 광 흐름의 감독되지 않은 학습 방법인 SMERF를 제시한다. 이 방법은 감독된 광 흐름의 아키텍처 개선을 감독되지 않은 학습을 위한 새로운 아이디어와 통합한다.
2. **Flow2Stereo: Effective Self-Supervised Learning of Optical Flow and Stereo Matching**
- **Abstract**: This paper proposes a unified method to jointly learn optical flow and stereo matching by leveraging 3D geometry behind stereoscopic videos. The approach achieves high accuracy on various benchmarks.
**Flow2Stereo: 광학 흐름 및 스테레오 매칭의 효과적인 자기 지도 학습**
- **추상**: 본 논문은 입체 비디오 뒤에서 3D 기하학을 활용하여 광학 흐름과 스테레오 매칭을 공동으로 학습하는 통일된 방법을 제안한다. 이 접근 방식은 다양한 벤치마크에서 높은 정확도를 달성한다.
3. **SelFlow: Self-Supervised Learning of Optical Flow**
- **Abstract**: SelFlow introduces a self-supervised method for optical flow learning. The approach distills reliable flow estimations from non-occluded pixels and uses these predictions as ground truth for learning optical flow in occluded regions.
**SelFlow: 광학 흐름의 자체 지도 학습**
- **Abstract**: SelFlow는 광학 흐름 학습을 위한 자체 지도 방법을 도입한다. 이 접근 방식은 비폐쇄 픽셀에서 신뢰할 수 있는 흐름 추정치를 증류하고 이러한 예측을 폐쇄 영역에서 광학 흐름을 학습하기 위한 지상 진리로 사용한다.
4. **Learning Correspondence from the Cycle-Consistency of Time**
- **Abstract**: This paper introduces a self-supervised method for learning visual correspondence from unlabeled video using cycle-consistency in time as a supervisory signal.
**시간의 일관성에서 대응 학습**
- **추상**: 본 논문은 시간의 주기 일관성을 감독 신호로 사용하여 레이블이 지정되지 않은 비디오에서 시각적 대응성을 학습하는 자체 감독 방법을 소개한다.
5. **Video Enhancement with Task-Oriented Flow**
- **Abstract**: The paper proposes task-oriented flow (TOFlow), a motion representation learned in a self-supervised, task-specific manner for video enhancement.
**업무 중심 흐름을 통한 비디오 향상**
- **추상**: 본 논문은 비디오 향상을 위해 자기 감독의 작업별 방식으로 학습된 모션 표현인 작업 지향 흐름(TOFlow)을 제안한다.
These papers demonstrate the potential of combining optical flow with self-supervised learning techniques to achieve state-of-the-art results in various computer vision tasks.
멀티뷰 불변성 및 대조학습
1. **멀티뷰 불변성 및 대조 학습**:
- 많은 현대 SSL 방법의 핵심 아이디어는 입력 데이터의 단순한 변환에 불변(또는 무감각)인 특징 표현을 만드는 것이다.
- 대조 학습은 모델이 입력의 두 개의 증강(또는 변환) 버전을 유사한 방식으로 표현하도록 장려하는 기술이다. 목표는 상이한 입력의 표현을 밀어내는 동안 이들 증강 버전의 표현을 특징 공간에서 근접하게 만드는 것이다.
- 대조 학습이 널리 채택되기 전에는 다양한 방법으로 이러한 불변성을 다른 방식으로 강제하려고 했다.
2. **의사 레이블 및 약하게 훈련된 네트워크**:
- 라벨링되지 않은 데이터를 활용하기 위한 하나의 인기 있는 접근법은 약하게 훈련된 신경망을 사용하여 이미지에 대한 의사 라벨을 생성하는 것이다. 이러한 의사 라벨이 생성되면 실제 라벨인 것처럼 감독된 방식으로 모델을 훈련하는 데 사용될 수 있다.
- 이 접근 방식은 변환에 불변성을 추가함으로써 향상되었다. 예를 들어, 2018년에 미야토 등에 의해 도입된 가상 적대적 훈련은 의사 레이블을 사용하여 네트워크를 훈련시켰을 뿐만 아니라 입력 이미지에 대한 작은 동요에 대해 학습된 기능이 거의 변하지 않도록 보장했다.
3. **데이터 확대에 대한 불변성**:
- 이후의 연구들은 다양한 데이터 증강 기술에 대한 불변성 유지의 중요성을 강조했다.
- 일례로 2019년의 Berthelot et al. 의 MixMatch가 있다. 이 방법은 훈련 이미지의 다수의 무작위 증강에 걸쳐 네트워크의 출력을 평균화함으로써 유사 레이블을 결정한다. 이는 적용된 증강에 불변하는 레이블을 초래한다.
- 다른 방법은 2019년에 Bachman et al.이 제안한 바와 같이, 상이한 뷰 또는 증강 하에서 이미지의 표현들 사이의 상호 정보를 최대화하는 것을 목표로 하였다.
4. **SSL 분류**:
- 기본 방법이 설정된 상태에서 텍스트는 SSL을 네 개의 기본 패밀리로 분류합니다:
1. **Deep Metric Learning Family**: 데이터 포인트 간의 거리 메트릭 학습에 중점을 둡니다.
2. **자율 증류 제품군**: 증강 데이터에 대한 자신의 행동을 모방하기 위해 모델을 훈련합니다.
3. **표준 상관 분석 제품군**: 데이터의 서로 다른 보기 또는 표현 간의 상관 관계를 찾는 것을 목표로 합니다.
4. **Masked Image Modeling Family**: NLP에서 마스킹된 언어 모델 뒤에 숨겨진 아이디어와 유사하게 마스킹되거나 숨겨진 이미지의 부분을 예측하는 것이 포함될 수 있습니다.
본질적으로 SSL 방법의 진화는 모델을 다양한 변환 및 증강에 불변하게 만들고 관련 없는 변형을 무시하면서 데이터의 본질적인 특징을 포착한다는 목표에 의해 추진되었다. 이는 자기 지도 학습 영역에서 여러 혁신적인 기술과 프레임워크의 개발로 이어졌다.
[2]
The provided text delves into various advanced techniques and concepts related to Self-Supervised Learning (SSL) and Deep Metric Learning (DML). Let's break it down:
1. **Forming Positives**:
- Beyond using semantic-preserving transformations to create positive pairs, it's also possible to mine naturally occurring positive pairs from data.
2. **Time-Contrastive Learning**:
- An iconic application of triplet loss uses video frames. Here, positive pairs are formed from nearby frames (temporally close), while negative pairs come from frames that are temporally distant.
- This approach, developed by Sermanet et al. in 2018, is termed Time-Contrastive (TC) Learning.
3. **Nonlinear ICA**:
- Introduced by Hyvarinen and Morioka in 2016, this method provided a proof that one can learn the log probability density function (PDF) when performing classification tasks.
4. **Classification Pretext Task**:
- Alexey et al. in 2015 proposed a method where a classification task is trained by comparing transformations of image patches against different transformations of other image patches.
- A challenge with this setup is the potential for a large number of classes, which can degrade performance on subsequent tasks.
5. **Noise Contrastive Estimation (NCE)**:
- To address the challenge of having too many classes, NCE was introduced and used in works by Mnih and Teh (2012) and Mnih and Kavukcuoglu (2013). NCE modifies the denominator in the loss function to avoid iterating over all classes.
- This is an alternative to sampling-based gradient estimation, which was found to be less stable, as noted by Bengio and Senécal in 2003 and 2008.
6. **Momentum Encoder**:
- The concept of a momentum encoder is introduced, which emphasizes that feature maps should not change rapidly. This idea is related to the proximal algorithm, as discussed by Parikh et al. in 2014.
7. **Hard Negative Data Mining**:
- In the context of SSL, inspired by DML, there's a technique called "hard negative data mining." Here, negative samples are intentionally chosen to be close to the positive samples but still distinct. This creates a more challenging learning objective, pushing the model to learn finer distinctions.
8. **Alternative to DML - Self-Distillation**:
- The text hints at discussing an alternative approach to deep metric learning, which is based on the concept of self-distillation. However, the details of this approach are not provided in the given excerpt.
In summary, the text highlights various advanced techniques in the realm of SSL and DML, emphasizing the importance of carefully selecting positive and negative pairs, the challenges of handling a large number of classes, and the evolution of methods to address these challenges.
"표현 붕괴"는 기계 학습에서, 특히 비지도 및 생성 모델에서 관찰되는 현상으로, 학습된 데이터의 표현이 사소하거나, 퇴보하거나, 의도된 것보다 덜 다양해진다. 표현 붕괴가 발생하면, 모델은 데이터에 존재하는 풍부하고 다양한 구조를 포착하지 못한다. 대신, 상이한 입력에 대해 유사하거나 동일한 출력을 생성하는 경향이 있다. 표현 붕괴가 일반적으로 논의되는 일부 맥락은 다음과 같다:
1. **생성 적대 네트워크(GAN)**:
- GANs의 맥락에서, 표현 붕괴는 종종 "모드 붕괴"로 나타난다. 이것은 상이한 랜덤 노이즈 입력이 주어질 때조차, 제너레이터가 제한된 다양한 출력을 생성하는 경우이다. 그 결과, 제너레이터는 실제 데이터 분포의 다양한 모드(또는 클러스터)를 표현하는 데 실패한다.
2. **VAE(Variational Autoencoder)**:
- VAE들의 경우, 표현 붕괴는 학습된 잠재 공간이 기초 데이터 분포를 효과적으로 캡처하지 않을 때 발생할 수 있다. 이것은 디코더가 잠재 공간의 포인트들에 관계없이 유사한 출력들을 생성하는 결과를 초래할 수 있다.
3. **자율 지도 학습**:
- 자기 지도 학습에서 표현 붕괴는 모델이 모든 입력에 대해 상수 또는 사소한 표현을 생성하는 방법을 학습하여 데이터의 뉘앙스와 변동을 포착하지 못할 때 발생할 수 있다.
4. **대비 학습**:
- 대조적 학습 방법에서 표현 붕괴는 서로 다른 입력에 대한 임베딩이 너무 유사하거나 구별할 수 없게 되어 뚜렷하고 의미 있는 표현을 학습하려는 목적을 무산시킬 때 발생할 수 있다.
많은 기계 학습 모델의 목표는 데이터의 기본 구조와 패턴을 캡처할 수 있는 풍부하고 다양한 표현을 학습하는 것이기 때문에 표현 붕괴를 피하는 과제가 중요하다. 붕괴가 발생하면 학습된 표현의 효용이 크게 감소하고 다운스트림 작업에 대한 모델의 성능에 악영향을 미칠 수 있다.
BYOL(Bootstrap Your Own Latent):
1. **자율 증류의 도입**:
- BYOL은 표현의 붕괴를 막기 위해 자기 증류의 개념을 도입하였다. 딥러닝에서 '붕괴'는 학습된 표현이 사소해지거나 퇴보하는 상황을 의미하는데, 이는 바람직하지 않다.
2. **이중 네트워크 아키텍처**:
- BYOL은 예측기와 함께 두 개의 신경망을 사용한다.
- **Online/Student Network**: 입력을 기반으로 출력을 예측하는 네트워크로 학습과정에서 능동적으로 학습하고 업데이트한다.
- **Target/교원 네트워크**: 이 네트워크는 온라인 네트워크에 대한 목표 출력을 제공한다. 그것은 경사 하강을 사용하여 직접 훈련되지 않는다. 대신, 그것의 가중치는 온라인 네트워크의 가중치에 기초하여 업데이트된다.
3. **동일한 이미지의 다른 보기**:
- 상기 2개의 네트워크들 각각은 동일한 입력 이미지의 상이한 증강 뷰를 수신한다. 이러한 증강은 랜덤 크기 조정, 크롭, 컬러 지터 및 밝기 변경을 포함할 수 있다. 이 아이디어는 네트워크들이 이러한 다양한 뷰들로부터 강건하고 불변의 특징들을 학습하는 것을 보장하는 것이다.
4. **교육 역학**:
- 학생(온라인) 네트워크는 출력과 교사 네트워크가 제공하는 목표의 차이에 기초하여 기울기 강하를 사용하여 훈련된다.
- 교사 네트워크의 가중치는 온라인 네트워크의 가중치의 지수 이동 평균(EMA)을 사용하여 업데이트된다. 이것은 교사 네트워크의 가중치가 과거 가중치와 온라인 네트워크의 현재 가중치의 가중 평균에 기초하여 느리게 변화한다는 것을 의미한다.
5. **비대칭의 중요성**:
- EMA에 의해 유도된 교사 네트워크의 느린 업데이트는 두 네트워크 사이에 비대칭성을 도입한다. 이러한 비대칭성은 BYOL의 성공에 필수적이다. 교사 네트워크가 학생 네트워크에 안정적이고 천천히 진화하는 목표물을 제공함으로써 빠른 진동을 방지하고 더 나은 일반화를 촉진한다.
### 요약:
BYOL은 온라인 (학생) 네트워크와 대상 (교사) 네트워크의 두 가지 네트워크를 사용하여 자기 증류 개념을 활용하는 자기 지도 학습 접근법이다. 학생 네트워크는 교사 네트워크가 제공하는 목표에 자신의 출력을 맞추려고 노력함으로써 학습한다. EMA를 통해 달성된 교사 네트워크의 느린 업데이트는 학생 네트워크에 안정적인 목표를 제공함으로써 이 방법의 성공에 결정적인 역할을 한다. 이 접근법은 레이블링된 데이터의 필요 없이 의미 있고 강력한 표현을 학습하는 데 상당한 가능성을 보여주었다.
'애니리뷰' 카테고리의 다른 글
TF for Detection / SS (0) | 2023.10.31 |
---|---|
[ViT] 내 블로그에 있는 거 한 번에 싹 다 모음 + (C)Swin (0) | 2023.08.27 |
[chatGPT] 파이썬, LSTM 혹은 numpy, torch 질답 모음 (0) | 2023.03.22 |
컴퓨터학현장실습 대비 Prometheus (0) | 2022.11.21 |
yolov7-face를 위한 wandblogger (2) | 2022.11.07 |