'🏛 Research' 카테고리의 글 목록 (5 Page)

VAE (Variational Autoencoder) VAE(Variational Autoencoder)는 생성 모델 중 하나로, 주로 차원 축소 및 생성 작업에 사용되는 신경망 아키텍처이다. VAE는 데이터의 잠재 변수를 학습하고 이를 사용하여 새로운 데이터를 생성하는 데 사용되는데, 특히 이미지 및 음성 생성과 같은 응용 분야에서 널리 사용되고 있다. 이러한 VAE는 크게 인코더와 디코더라는 두 부분으로 구성되어 있다. Autoencoder(오토인코더)와 헷갈릴 수 있는데, 오토인코더는 인풋을 똑같이 복원할 수 있는 latent variable z를 만드는 것이 목적, 즉 인코더를 학습하는 것이 주 목적이고,VAE의 경우 인풋 x를 잘 표현하는 latent vector를 추출하고, 이를 통해 인풋..

BERT(Bidirectional Encoder Representations from Transformers) BERT는 자연어 처리 (NLP) 분야에서 혁신적인 모델 중 하나로, 구글이 개발해 2018년에 공개되었다. BERT는 이전의 NLP 모델보다 더 탁월한 성능을 제공하여 다양한 자연어 처리 작업에서 상위 성과를 이루어 냈다. 이 모델은 특히 사전 훈련된 언어 모델을 사용하여 다른 NLP 작업에 적용할 수 있는 다목적 모델로 주목받았다. 논문 제목은 아래와 같으며 피인용수는 약 8만회(23년 9월 기준)로 이제는 LM 분야에서 정말 기본이 되는 연구라고 할 수 있다. paper : BERT: Pre-training of Deep Bidirectional Transformers for Languag..

- paper : NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis / ECCV2020 NeRF 논문이 공개된지도 시간이 꽤 흘렀는데, 2020 ECCV에서 공개됐을 때만 해도 굉장히 신기하고 획기적인 view synthesis 방법으로 관심을 받았지만, 여러 단점 때문에 실제 서비스에 적용되기는 쉽지 않았다. 하지만, 2023 CVPR에서는 2022년에 비해 radiance라는 단어의 사용이 80% 증가하고, NeRF의 경우 39% 증가했을 만큼 NeRF는 활발히 연구되고 있다. 특히 이젠 개념 증명을 넘어 veiw editing 이나 각종 application 연구가 진행되고 있다. 즉 NeRF가 이제 각종 서비스에 활용될만..

SAM (Segment Anything Model) 설명 및 사용 방법 [Meta AI] SAM (Segment Anything Model) 사용 방법 | 모든 객체를 분할하는 Vision AI 모델SAM (Segment Anything Model) Meta 에서 SAM (Segment Anything Model) 이라는 어떤 것이든 분할할 수 있는 모델을 공개했다. 논문 제목 자체가 'Segment Anything' 인데 굉장히 자신감 넘치는 워딩이다. 간단한 설명을mvje.tistory.com Meta AI의 Segment Anything Model (SAM)이 공개된지 얼마나 됐다고 벌써 Fast SAM이라는 속도가 향상된 버전의 SAM이 공개되었다. 빅테크 기업에서 혁신적인 AI 모델을 지속적으..

Track Anything: Segment Anything Meets Videos 세상 참 빠르다. Meta AI의 SAM (Segment Anything Model)이 나온지 얼마나 됐다고 SAM을 비디오에 적용해 tracking task를 수행하는 TAM (Tracking Anything Model) 논문이 나왔다고 한다. Track-Anything은 비디오 객체 추적 및 분할을 위한 유연한 대화형 도구로 Segment Anything에서 개발되었으며 사용자 클릭을 통해서만 추적 및 세그먼트화할 항목을 지정할 수 있다. 추적하는 동안 사용자는 추적하려는 개체를 유연하게 변경하거나 모호한 부분이 있는 경우 관심 영역을 수정할 수도 있다. 이러한 특성을 통해 Track-Anything은 다음과 같은 작업..

DINOv2 논문 제목 : DINOv2: Learning Robust Visual Features without Supervision GitHub Demo 23년 4월 Meta AI에서 self-supervised learning을 사용하여 고성능 컴퓨터비전 모델을 학습하는 새로운 방법인 DINOv2를 공개했다. LLM(Large Language Model) 학습에도 활용되는 self-supervised learning 방법은 모델 학습 시 많은 양의 레이블이 지정된 데이터가 필요하지 않기 때문에 AI 모델을 학습하는 강력하고 유연한 방법이다. 논문에 따르면 최근 몇년 동안 컴퓨터비전 작업의 표준 접근 방식이었던 이미지-텍스트를 페어로 학습하는 멀티모달 방식의 학습 방법에서는 이미지의 캡션 정보에 의존한..

티스토리툴바