test

티스토리 뷰

카테고리 없음

test

꿈꾸는컴퓨터 2020. 8. 11. 18:50

textbox++

이걸로 트레이닝 해서 베이스라인으로 해봐도 괜찮을것

다른 detector 모델로 바꿔도

EfficientNet 리딩 해주심

다른 페이퍼 두개 읽어보기

중요

백본이뭔지

디텍션알고리즘 -

1stage - yolo

2stage - rcnn

우리는 1 stage (요즘 많이 쓰임)

OCR -> 다른 거 뭐 쓰는지 확인

textbox는 인풋크기가 크기 때문에 작은것까지 뽑을 수 있지만,

테스트 사진에서 다 찾으면 좋고

적어도 두번째 C04까지

Vertical

구역번호를 Classification 을 활용

3/27

Idea : 사실상 텍스트플레이트가 아래쪽으로 내려올 일이 없을 것 같은데 그걸 고려하면 어떨까? (사진을 잘라서 쓴다던지)

ICDAR 2015

텍스트 검출 - opencv contour 추출 및 머신러닝을 통한 텍스트 인지 classification

https://d2.naver.com/helloworld/8344782?fbclid=IwAR2rpmMd8n7oA6PZpr0R6SGtxKvzq40AZgUooFuz62cmy10L-asDnDbSvuk

Data

Playback Data 사 용
차량이 어디 위치해 있는지 데이터가 있음
표지판 들의 위치 데이터 주실 것임

추가 활용해봄직한 데이터
- Coco-text
- https://bgshih.github.io/cocotext/
- COCO-Text V2.0 contains 63,686 images with 239,506 annotated text instances.
- A Large-Scale Scene Text Dataset, Based on MSCOCO

Data augmentation

여기서는 우리가 원하는 데이터를 생성하기가 비교적 쉬움 (GAN 안써도 될듯)
일반적인 방법 : rotation, shifting, rescaling, flipping, shearing, stretching
Text plate 를 삽입한 새로운 사진을 생성

Preprocessing

RGB 값의 평균을 빼기

OCR

Clova 에서 Scene OCR 성능을 정리한 프레임워크가 있다.-
- https://clova-ai.blog/2019/09/04/what-is-wrong-with-scene-text-recognition-model-comparisons-dataset-and-model-analysis-iccv-2019-oral/?fbclid=IwAR3LRi0AGBsbLW5uzqipSuTqVsbbnv_S_Euei_RX44xF77ffyDu3pD2_QXs

ICDAR 2019 Robust Reading Chanllenge

ICDAR2019 Robust Reading Challenge on Large-scale Street View Text with Partial Labeling
- https://rrc.cvc.uab.es/?ch=16

-   

-   데이터에 라벨링에 대한 부분 주석이 존재

-   40만개의 트레이닝 데이터

-   스트릿 뷰에서의 글자 탐색. 가장 적합한 것 같음.

-   2만개 \* 10개의 언어. 우리는 영어만 하면 되지 않을까 싶음

Task 1 - Text Detection 의 결과를 분석
- Mask-RCNN 사용 한 팀 우승
- - Mask-RCNN 으로 텍스트를 어떻게 적용?
- Pyramid Mask Text Detector 사용한 팀
- - https://rrc.cvc.uab.es/?ch=16&com=evaluation&view=method_info&task=1&m=54362
  - 글자의 상태를 다각도에서 검출할 수 있어서 괜찮아 보임

Multi-stage Text Detector 라는 개념 도입한 팀

키워드 : Scene Text Detector
- 논문 서치
- EAST: An Efficient and Accurate Scene Text Detector (인용 400+)
- - CVPR 2017
- TextBoxes++: A Single-Shot Oriented Scene Text Detector (인용 170+)
- - IEEE 2018
  - Image random crop 을 통한 Data Augmentation 과정이 설명되어있음
  - ICDAR 2015 Incidental Text (IC15) dataset [49] and COCO-Text dataset 사용
  - 텍스트 인식은 CRNN 도 입
  - R-cnn 류와 YOLO (SSD) 류 방법이 나누어져있음
  - 텍스트 감지 전략이 보통 3개라고 함
  - - 1) Character-based : 글자 각각을 찾은다음 그룹화
    - 2) Word-based : 단어를 object detection
    - 3) Text-Line Based : 텍스트 라인을 통째로 찾은 후 단어로 분리
  - 바운딩박스 모양에 따른 분류도 설명
  - 참고할 논문의 설명이 잘되어있음
  - 이 논문은 다중방향, Word-based.
  - SSD를 text의 특성에 맞게 바꿔서 쓴듯
  - EAST와의 비교
  - - Score map 이 따로 있지 않아서 디컨볼루션이 적음 (시간 빠름)
    - EAST 는 단어 분할이 힘듬(스코어 맵에 의존), 이 논문은 피쳐맵에서 바로 뽑아내서 괜찮다고함

Scene Text Detection and Recognition: The Deep Learning Era
https://arxiv.org/pdf/1811.04256.pdf

EAST: An Efficient and Accurate Scene Text Detector
https://github.com/argman/EAST
https://arxiv.org/pdf/1704.03155.pdf
데모 결과 구글 독스

논문 내용
- 기존 장면에서의 텍스트 감지는 여러 단계를 거쳐 했음 -> 신경망을 통해 구역을 다이렉트로 예측하는 것
- 백본 PVANET, VGGNET 으로 테스트

해볼 것
- 기존 Scene text detector 에서 우리 꺼를 돌렸을 때 얼마나 잘 탐지할까?
- 데이터셋을 얼마나 생성하고, 기존 것과 얼마나 섞어서 쓰는게 좋을까?

테이블

예제

코드 있는지

성능

연산량

런만 시켜봐서

깃헙> 텐서플로 에서 모델 서머리 확인

트레이닝 데이터

물류창고 배경에 텍스트 플레이트 상대 위치를 시뮬레이트 해서 렌더링

3/25

Issue
- 어느정도의 거리 까지 읽기 가능해야 하는지?
- 흐릿한것도 읽을 필요가 있는지? 정확할 때만 읽으면 되는지
- 명확한 카테고리로

Idea
- Text plate 가 화면상에서 확실히 구분되므로 contour 추출이 쉬울 것 같다.
- - Text plate 를 영상처리로 바로 찾아버릴 수는 없을까?
  - 보여주신 데이터를 보니 그건 힘들 것 같음
  - 영상처리는 보조 혹은 전처리로 사용

Text Localization and Recognition in Images and Video Seiichi Uchida
- https://link.springer.com/content/pdf/10.1007%2F978-0-85729-859-1_28.pdf
- P850

End to End
- 텍스트 탐지와 텍스트 인식을 독립적으로 학습한 다음 결합하는 것이 가능
- 탐지 : FCNN - 인식: CTC(Connectionistor Temporal Classification) 을 사용했다고 함
- "An end-to-end trainable scene text localization and recognition framework"
해야할 것
- 기본 OCR 성능 테스트
- OCR 추가 공부
- Large-scale Street View Text with Partial Labeling 결과 분석

3/24

Video Meeting

Research 가 아닌 실제 활용 가능한 Application 을 만들 수 있도록
이번주는 어떤 것들이 이번 분야에서 가져다가 쓸만한지
데일리 미팅 아침 9시

Project Schedule
- Supervised by : Byungsoo Kim, Taegyu Lim, Brian Sohn (한국계 미국인)
- 크게 세가지 파트
- - Part 1 : OCR recognition
  - - 구역 글자(ex: A2)를 검출하는 것
    - 텍스트를 인지

Part 2 : Corner Detection
- 코너의 꼭지점을 정확히 알아내는 것
- 잘 안된다면 검은색 테두리 등을 추가하는 방안도 있음

- Part 3 : 6 DoF
- - 실제 위치 계산 cam <-> marker
  - Retrieval algorithm 을 강화
이후 MotionKit 에 올리기.

Bryan 미팅
- 알고리즘 및 Visualization

Condition
- For any general fonts

조사

Camera Calibration
- 실제 세계는 3차원 -> 카메라는 2차원
- 영상좌표에서 공간좌표를 복원하기 위해 카메라 내부 요인을 제거하는 것

탐지 순서 방안

전체 OCR -> Corner Detection
- cv를 통한 전처리 필요
- 속도가 빠름
- OCR 성능이 사진 전체에서 찾을 수 있을만큼 좋은가?
- 멀리있을때도 찾을 수 있을까?

- Detection 으로 text plate 탐색 -> 2. 구역 내에서 OCR (Text) -> 3. Corner Detection
- - 속도가 느릴 수 있음
  - Detection
  - - cv를 사용한 전처리 후 CNN으로 Object Detection
    - 또는 cv 만으로 detection
4시 임태규 박사님 미팅
4시반 미팅

전처리
- Histogram Equalization
- Hsv 색상 필터링

OCR
- optical character recognition
- Text-Localization -> Word Recognition -> End to End

-   이미지 이진화 : Adaptive thresholding

-   Image Blurring, Image Dilation

-   문서가 아닌 Natural Image 에서 Detection 하기 위해서는?

-   -   Text-Localization 필요

    -   제한되지 않은 환경에서 Text Reading

    -   -   ICDAR 2019 Robust Reading Chanllenge

    -   [https://rrc.cvc.uab.es](https://rrc.cvc.uab.es)

    -   데이터셋, 논문 찾기

Word recognition
- 평면화 : Perspective Transformation

Detection
- OpenCV -> Contour Detection
- ML -> Object Detection (CNN)
- 기존 output 찾기
- 표지판 Detection 과 비슷하지 않을까?

참고자료

딥러닝 기반 불법 주정차 자동 탐지 시스템

https://www.epnc.co.kr/news/articleView.html?idxno=90232

warehouse-robots-improving-inventory-count

https://innovecs.com/blog/warehouse-robots-improving-inventory-count/

카메라 캘리브레이션이란

https://darkpgmr.tistory.com/32

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

글 보관함

꿈꾸는자취방

티스토리 뷰

test

EAST: An Efficient and Accurate Scene Text Detector

티스토리툴바