티스토리 뷰

카테고리 없음

test

꿈꾸는컴퓨터 2020. 8. 11. 18:50

textbox++

이걸로 트레이닝 해서 베이스라인으로 해봐도 괜찮을것

다른 detector 모델로 바꿔도

EfficientNet 리딩 해주심

다른 페이퍼 두개 읽어보기

중요

백본이뭔지

디텍션알고리즘 -

1stage - yolo

2stage - rcnn

우리는 1 stage (요즘 많이 쓰임)

OCR -> 다른 거 뭐 쓰는지 확인

textbox는 인풋크기가 크기 때문에 작은것까지 뽑을 수 있지만,

테스트 사진에서 다 찾으면 좋고

적어도 두번째 C04까지

Vertical

구역번호를 Classification 을 활용


3/27

Idea : 사실상 텍스트플레이트가 아래쪽으로 내려올 일이 없을 것 같은데 그걸 고려하면 어떨까? (사진을 잘라서 쓴다던지)

ICDAR 2015

텍스트 검출 - opencv contour 추출 및 머신러닝을 통한 텍스트 인지 classification

https://d2.naver.com/helloworld/8344782?fbclid=IwAR2rpmMd8n7oA6PZpr0R6SGtxKvzq40AZgUooFuz62cmy10L-asDnDbSvuk

Data

  • Playback Data 사 용

  • 차량이 어디 위치해 있는지 데이터가 있음

  • 표지판 들의 위치 데이터 주실 것임

  • 추가 활용해봄직한 데이터

Data augmentation

  • 여기서는 우리가 원하는 데이터를 생성하기가 비교적 쉬움 (GAN 안써도 될듯)

  • 일반적인 방법 : rotation, shifting, rescaling, flipping, shearing, stretching

  • Text plate 를 삽입한 새로운 사진을 생성

Preprocessing

  • RGB 값의 평균을 빼기

OCR

  • ICDAR 2019 Robust Reading Chanllenge
-   
- 데이터에 라벨링에 대한 부분 주석이 존재 - 40만개의 트레이닝 데이터 - 스트릿 뷰에서의 글자 탐색. 가장 적합한 것 같음. - 2만개 \* 10개의 언어. 우리는 영어만 하면 되지 않을까 싶음
  • Multi-stage Text Detector 라는 개념 도입한 팀
  • 키워드 : Scene Text Detector

    • 논문 서치

    • EAST: An Efficient and Accurate Scene Text Detector (인용 400+)

      • CVPR 2017

    • TextBoxes++: A Single-Shot Oriented Scene Text Detector (인용 170+)

      • IEEE 2018

      • Image random crop 을 통한 Data Augmentation 과정이 설명되어있음

      • ICDAR 2015 Incidental Text (IC15) dataset [49] and COCO-Text dataset 사용

      • 텍스트 인식은 CRNN 도 입

      • R-cnn 류와 YOLO (SSD) 류 방법이 나누어져있음

      • 텍스트 감지 전략이 보통 3개라고 함

        • 1) Character-based : 글자 각각을 찾은다음 그룹화

        • 2) Word-based : 단어를 object detection

        • 3) Text-Line Based : 텍스트 라인을 통째로 찾은 후 단어로 분리

      • 바운딩박스 모양에 따른 분류도 설명

      • 참고할 논문의 설명이 잘되어있음

      • 이 논문은 다중방향, Word-based.

      • SSD를 text의 특성에 맞게 바꿔서 쓴듯

      • EAST와의 비교

        • Score map 이 따로 있지 않아서 디컨볼루션이 적음 (시간 빠름)

        • EAST 는 단어 분할이 힘듬(스코어 맵에 의존), 이 논문은 피쳐맵에서 바로 뽑아내서 괜찮다고함

  • 논문 내용

    • 기존 장면에서의 텍스트 감지는 여러 단계를 거쳐 했음 -> 신경망을 통해 구역을 다이렉트로 예측하는 것

    • 백본 PVANET, VGGNET 으로 테스트

  • 해볼 것

    • 기존 Scene text detector 에서 우리 꺼를 돌렸을 때 얼마나 잘 탐지할까?

    • 데이터셋을 얼마나 생성하고, 기존 것과 얼마나 섞어서 쓰는게 좋을까?

테이블

예제

코드 있는지

성능

연산량

런만 시켜봐서

깃헙> 텐서플로 에서 모델 서머리 확인

트레이닝 데이터

  • 물류창고 배경에 텍스트 플레이트 상대 위치를 시뮬레이트 해서 렌더링

3/25

  • Issue

    • 어느정도의 거리 까지 읽기 가능해야 하는지?

    • 흐릿한것도 읽을 필요가 있는지? 정확할 때만 읽으면 되는지

    • 명확한 카테고리로

  • Idea

    • Text plate 가 화면상에서 확실히 구분되므로 contour 추출이 쉬울 것 같다.

      • Text plate 를 영상처리로 바로 찾아버릴 수는 없을까?

      • 보여주신 데이터를 보니 그건 힘들 것 같음

      • 영상처리는 보조 혹은 전처리로 사용

  • End to End

    • 텍스트 탐지와 텍스트 인식을 독립적으로 학습한 다음 결합하는 것이 가능

    • 탐지 : FCNN - 인식: CTC(Connectionistor Temporal Classification) 을 사용했다고 함

    • "An end-to-end trainable scene text localization and recognition framework"

  • 해야할 것

    • 기본 OCR 성능 테스트

    • OCR 추가 공부

    • Large-scale Street View Text with Partial Labeling 결과 분석

3/24

Video Meeting

  • Research 가 아닌 실제 활용 가능한 Application 을 만들 수 있도록

  • 이번주는 어떤 것들이 이번 분야에서 가져다가 쓸만한지

  • 데일리 미팅 아침 9시

  • Project Schedule

    • Supervised by : Byungsoo Kim, Taegyu Lim, Brian Sohn (한국계 미국인)

    • 크게 세가지 파트

      • Part 1 : OCR recognition

        • 구역 글자(ex: A2)를 검출하는 것

        • 텍스트를 인지

  • Part 2 : Corner Detection

    • 코너의 꼭지점을 정확히 알아내는 것

    • 잘 안된다면 검은색 테두리 등을 추가하는 방안도 있음

    • Part 3 : 6 DoF

      • 실제 위치 계산 cam <-> marker

      • Retrieval algorithm 을 강화

  • 이후 MotionKit 에 올리기.

  • Bryan 미팅

    • 알고리즘 및 Visualization
  • Condition

    • For any general fonts

조사

  • Camera Calibration

    • 실제 세계는 3차원 -> 카메라는 2차원

    • 영상좌표에서 공간좌표를 복원하기 위해 카메라 내부 요인을 제거하는 것

  • 탐지 순서 방안
  • 전체 OCR -> Corner Detection

    • cv를 통한 전처리 필요

    • 속도가 빠름

    • OCR 성능이 사진 전체에서 찾을 수 있을만큼 좋은가?

    • 멀리있을때도 찾을 수 있을까?

    • Detection 으로 text plate 탐색 -> 2. 구역 내에서 OCR (Text) -> 3. Corner Detection

      • 속도가 느릴 수 있음

      • Detection

        • cv를 사용한 전처리 후 CNN으로 Object Detection

        • 또는 cv 만으로 detection

  • 4시 임태규 박사님 미팅

  • 4시반 미팅

  • 전처리

    • Histogram Equalization

    • Hsv 색상 필터링

  • OCR

    • optical character recognition

    • Text-Localization -> Word Recognition -> End to End

-   이미지 이진화 : Adaptive thresholding

-   Image Blurring, Image Dilation

-   문서가 아닌 Natural Image 에서 Detection 하기 위해서는?

-   -   Text-Localization 필요

    -   제한되지 않은 환경에서 Text Reading

    -   -   ICDAR 2019 Robust Reading Chanllenge

    -   [https://rrc.cvc.uab.es](https://rrc.cvc.uab.es)

    -   데이터셋, 논문 찾기
  • Word recognition

    • 평면화 : Perspective Transformation
  • Detection

    • OpenCV -> Contour Detection

    • ML -> Object Detection (CNN)

    • 기존 output 찾기

    • 표지판 Detection 과 비슷하지 않을까?

참고자료

딥러닝 기반 불법 주정차 자동 탐지 시스템

https://www.epnc.co.kr/news/articleView.html?idxno=90232

warehouse-robots-improving-inventory-count

https://innovecs.com/blog/warehouse-robots-improving-inventory-count/

카메라 캘리브레이션이란

https://darkpgmr.tistory.com/32

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함