KoLLaVA

KoLLaVA

韩语多模态视觉语言助手

KoLLaVA是基于LLaVA框架开发的韩语多模态AI模型。通过韩语指令微调,该模型实现图像理解和多轮对话,可回答图像相关问题并进行视觉推理。项目开源了预训练和指令微调数据集、模型权重,并提供详细使用说明,为韩语多模态AI研究与应用提供了重要资源。

KoLLaVA多模态模型视觉语言助手韩语大语言模型Github开源项目

🏔️ KoLLaVA

[Dataset] [Model] [Paper Review]

  • Korean Large Language and Vision Assistant (feat. LLaVA)

  • 이미지 기반 한국어 대화 가능한 멀티모달 모델

<p align="center"> <a href="https://cocoa-t.tistory.com/entry/%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0-LLaVA-Large-Language-and-Vision-Assistant-Visual-Instruction-Tuning"><img src="images/Logo_.png" width="40%"></a> <br> KoLLaVA Logo </p> <!-- <br> Generated by <a href="https://wrtn.ai/">wrtn</a> via "한라산 배경의 귀여운 흰 진돗개를 단순한 형태의 만화 이미지로 그려줘" -->

Update Logs

Visual Chat Example

<p align="center"> <a href="https://cocoa-t.tistory.com/entry/%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0-LLaVA-Large-Language-and-Vision-Assistant-Visual-Instruction-Tuning"><img src="images/demo_dog.png" width="90%"></a> <br> </p>

Contents

<!-- - [Serving](https://github.com/tabtoyou/KoLLaVA/blob/main/README.md#serving) -->

Install

아래 과정은 Linux 기준으로 작성되었습니다. macOS에서 테스트 하실 경우 여기를 참고하세요.

  1. Clone 후 해당 디렉토리로 이동
git clone https://github.com/tabtoyou/KoLLaVA.git cd KoLLaVA
  1. Package 설치
conda create -n kollava python=3.10 -y conda activate kollava pip install --upgrade pip pip install -e .
  1. 학습 진행할 경우 추가 Package 설치
pip install -e ".[train]" pip install flash-attn --no-build-isolation
<!-- `--load-4bit`,`--load-8bit`을 명령어 뒤에 추가하면 4-bit, 8-bit quantized inference가 가능하며, 이때 `KoLLaVA-v1.5-Synatra-7b` 기준으로 single GPU에서 8GB 이하의 VRAM으로 실행할 수 있습니다. -->

Inference

터미널 창에서 아래 명령어를 통해 multi-turn 대화가 가능합니다. 또한 M1/M2 칩이 탑재된 Apple 디바이스를 사용하는 경우 --device flag를 사용하여 mps 디바이스를 지정할 수 있습니다. (--device mps) macOS에서 테스트 하실 경우 여기를 참고하세요.

python -m llava.serve.cli \
    --model-path tabtoyou/KoLLaVA-v1.5-Synatra-7b \
    --image-file "https://llava-vl.github.io/static/images/view.jpg" \

Training

LLaVA/KoLLaVA 학습은 two stage로 진행됩니다: (1) Pretraining(feature alignment stage): CC3M 데이터셋을 필터링한 595K subset을 이용하여, frozen pretrained vision encoder와 frozen LLM을 연결하는 projection layer를 학습합니다.; (2) Finetuning(visual instruction tuning stage): 150K 멀티모달 instruction-following 데이터와 약 academic-oriented tasks 및 AI-Hub에서 얻은 460K VQA 데이터를 이용해 multimodal instruction을 학습합니다.

KoLLaVA-v1.5는 8 A100 GPUs (80GB)로 학습했으며, 더 적은 GPU로 학습할 경우 per_device_train_batch_size를 줄이고 그 수에 맞게 gradient_accumulation_steps를 늘리면 됩니다. 재현을 위해서는 global batch size(per_device_train_batch_size x gradient_accumulation_steps x num_gpus)를 아래 Hyperparameters에 맞게 유지하세요.

Hyperparameters

  1. Pretraining
HyperparameterGlobal Batch SizeLearning rateEpochsMax lengthWeight decay
KoLLaVA-v1.5-Synatra-7B2561e-3120480
  1. Finetuning
HyperparameterGlobal Batch SizeLearning rateEpochsMax lengthWeight decay
KoLLaVA-v1.5-Synatra-7B1282e-5120480

Download Synatra checkpoints (automatically)

Base LLM 모델인 Synatra-7b의 weights은 주어진 training scripts를 실행하면 자동으로 다운로드 됩니다.

Pretrain (feature alignment)

Pretrain 과정에는 8 A100 GPUs (80GB) 기준 약 4시간이 소요됐습니다.

Prepare Pretraining Dataset

🤗 KoLLaVA-CC3M-Pretrain-595K : LLaVA Pretrain 데이터셋의 index에 맞춰 Ko-CC3M 한국어 caption 추출

DataEnglishKoreanSize
CC3M Concept-balanced 595Kchat.jsonko_chat.json211 MB / 229 MB
<!-- | LAION/CC/SBU BLIP-Caption Concept-balanced 558K | [blip_laion_cc_sbu_558k.json](https://huggingface.co/datasets/liuhaotian/LLaVA-Pretrain/raw/main/blip_laion_cc_sbu_558k.json) | - | [metadata.json](#) | 181 MB --> <details> <summary>Details</summary> <div markdown="1">

     사전학습 데이터셋은 CC3M을 필터링해 생성했으며, 595K개의 데이터로 이루어져 있습니다. 데이터셋 구조와 영어 버전 다운로드 방법에 대한 자세한 설명은 여기를, 한국어 데이터셋은 여기를 참고하세요. (주의 : DeepL로 번역한 결과가 아니며, 품질이 조금 떨어질 수 있습니다.)

License: CC-3M 준수

</div> </details> <details> <summary>Image Dataset</summary> <div markdown="1">

images.zip - LLaVA의 저자들은 사전학습에 사용한 이미지 파일도 공유했습니다. 이 이미지 파일은 연구 외에 다른 용도로 사용해서는 안 되며, 이미지의 사용은 CC3M의 라이선스를 준수해야 합니다. 원본 CC3M 데이터셋 소유자 혹은 참조된 이미지의 소유자가 요청할 경우 언제든지 해당 이미지는 삭제될 수 있습니다.

</div> </details>

Training script with DeepSpeed ZeRO-2: pretrain.sh.

  • --mm_projector_type mlp2x_gelu: the two-layer MLP vision-language connector.
  • --vision_tower openai/clip-vit-large-patch14-336: CLIP ViT-L/14 336px.

Run

sh scripts/v1_5/pretrain.sh

Visual Instruction Tuning

1. Prepare data

Instruction tuning data : 🤗 KoLLaVA-Instruct-581k

위의 데이터를 모두 다운받은 뒤, /workspace/data 디렉토리를 아래와 같이 구성하세요. 이때 workspace는 각자의 이미지 데이터를 저장하는 디렉토리 이름입니다.

  • 주의 : COCO,GQA,VG 데이터셋은 모두 academic-oriented tasks인 영어 데이터셋이며, 이를 DeepL로 번역했습니다. 번역 과정에서 오류가 있을 수 있으며, VG의

编辑推荐精选

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

Refly.AI

Refly.AI

最适合小白的AI自动化工作流平台

无需编码,轻松生成可复用、可变现的AI自动化工作流

酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

AI工具使用教程AI营销产品酷表ChatExcelAI智能客服
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

热门AI工具生产力协作转型TraeAI IDE
AIWritePaper论文写作

AIWritePaper论文写作

AI论文写作指导平台

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

数据安全AI助手热门AI工具AI辅助写作AI论文工具论文写作智能生成大纲
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

热门AI工具AI办公办公工具智能排版AI生成PPT博思AIPPT海量精品模板AI创作
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

下拉加载更多