
韩语多模态视觉语言助手
KoLLaVA是基于LLaVA框架开发 的韩语多模态AI模型。通过韩语指令微调,该模型实现图像理解和多轮对话,可回答图像相关问题并进行视觉推理。项目开源了预训练和指令微调数据集、模型权重,并提供详细使用说明,为韩语多模态AI研究与应用提供了重要资源。
[Dataset] [Model] [Paper Review]
Korean Large Language and Vision Assistant (feat. LLaVA)
이미지 기반 한국어 대화 가능한 멀티모달 모델
💥 🤗 KoLLaVA-KULLM-13B-8bit 공개 : KULLM을 KoLLaVA-Instruct-150k으로 학습
→ 성능이 기대에 미치지 못해 삭제합니다. 더 나은 13B 모델을 추후에 공개하겠습니다.
💥 클라우드 GPU 대여 비용 문제로 데모를 일시 중지합니다🥲
아래 과정은 Linux 기준으로 작성되었습니다. macOS에서 테스트 하실 경우 여기를 참고하세요.
git clone https://github.com/tabtoyou/KoLLaVA.git cd KoLLaVA
conda create -n kollava python=3.10 -y conda activate kollava pip install --upgrade pip pip install -e .
<!-- `--load-4bit`,`--load-8bit`을 명령어 뒤에 추가하면 4-bit, 8-bit quantized inference가 가능하며, 이때 `KoLLaVA-v1.5-Synatra-7b` 기준으로 single GPU에서 8GB 이하 의 VRAM으로 실행할 수 있습니다. -->pip install -e ".[train]" pip install flash-attn --no-build-isolation
터미널 창에서 아래 명령어를 통해 multi-turn 대화가 가능합니다. 또한 M1/M2 칩이 탑재된 Apple 디바이스를 사용하는 경우 --device flag를 사용하여 mps 디바이스를 지정할 수 있습니다. (--device mps) macOS에서 테스트 하실 경우 여기를 참고하세요.
python -m llava.serve.cli \
--model-path tabtoyou/KoLLaVA-v1.5-Synatra-7b \
--image-file "https://llava-vl.github.io/static/images/view.jpg" \
LLaVA/KoLLaVA 학습은 two stage로 진행됩니다: (1) Pretraining(feature alignment stage): CC3M 데이터셋을 필터링한 595K subset을 이용하여, frozen pretrained vision encoder와 frozen LLM을 연결하는 projection layer를 학습합니다.; (2) Finetuning(visual instruction tuning stage): 150K 멀티모달 instruction-following 데이터와 약 academic-oriented tasks 및 AI-Hub에서 얻은 460K VQA 데이터를 이용해 multimodal instruction을 학습합니다.
KoLLaVA-v1.5는 8 A100 GPUs (80GB)로 학습했으며, 더 적은 GPU로 학습할 경우 per_device_train_batch_size를 줄이고 그 수에 맞게 gradient_accumulation_steps를 늘리면 됩니다. 재현을 위해서는 global batch size(per_device_train_batch_size x gradient_accumulation_steps x num_gpus)를 아래 Hyperparameters에 맞게 유지하세요.
| Hyperparameter | Global Batch Size | Learning rate | Epochs | Max length | Weight decay |
|---|---|---|---|---|---|
| KoLLaVA-v1.5-Synatra-7B | 256 | 1e-3 | 1 | 2048 | 0 |
| Hyperparameter | Global Batch Size | Learning rate | Epochs | Max length | Weight decay |
|---|---|---|---|---|---|
| KoLLaVA-v1.5-Synatra-7B | 128 | 2e-5 | 1 | 2048 | 0 |
Base LLM 모델인 Synatra-7b의 weights은 주어진 training scripts를 실행하면 자동으로 다운로드 됩니다.
Pretrain 과정에는 8 A100 GPUs (80GB) 기준 약 4시간이 소요됐습니다.
🤗 KoLLaVA-CC3M-Pretrain-595K : LLaVA Pretrain 데이터셋의 index에 맞춰 Ko-CC3M 한국어 caption 추출
| Data | English | Korean | Size |
|---|---|---|---|
| CC3M Concept-balanced 595K | chat.json | ko_chat.json | 211 MB / 229 MB |
사전학습 데이터셋은 CC3M을 필터링해 생성했으며, 595K개의 데이터로 이루어져 있습니다. 데이터셋 구조와 영어 버전 다운로드 방법에 대한 자세한 설명은 여기를, 한국어 데이터셋은 여기를 참고하세요. (주의 : DeepL로 번역한 결과가 아니며, 품질이 조금 떨어질 수 있습니다.)
License: CC-3M 준수
</div> </details> <details> <summary>Image Dataset</summary> <div markdown="1">images.zip - LLaVA의 저자들은 사전학습에 사용한 이미지 파일도 공유했습니다. 이 이미지 파일은 연구 외에 다른 용도로 사용해서는 안 되며, 이미지의 사용은 CC3M의 라이선스를 준수해야 합니다. 원본 CC3M 데이터셋 소유자 혹은 참조된 이미지의 소유자가 요청할 경우 언제든지 해당 이미지는 삭제될 수 있습니다.
Training script with DeepSpeed ZeRO-2: pretrain.sh.
--mm_projector_type mlp2x_gelu: the two-layer MLP vision-language connector.--vision_tower openai/clip-vit-large-patch14-336: CLIP ViT-L/14 336px.Run
sh scripts/v1_5/pretrain.sh
Instruction tuning data : 🤗 KoLLaVA-Instruct-581k
위의 데이터를 모두 다운받은 뒤, /workspace/data 디렉토리를 아래와 같이 구성하세요. 이때 workspace는 각자의 이미지 데이터를 저장하는 디렉토리 이름입니다.


免费创建高清无水印Sora视频
Vora是一个免费创建高清无水印Sora视频的AI工具


最适合小白的AI自动化工作流平台
无需编码,轻松生成可复用、可变现的AI自动化工作流

大模型驱动的Excel数据处理工具
基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。


AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。


AI论文写作指导平台
AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。


AI一键生成PPT,就用博思AIPPT!
博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。


AI赋能电商视觉革命,一站式智能商拍平台
潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。


企业专属的AI法律顾问
iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。


稳定高效的流量提升解决方案,助力品牌曝光
稳定高效的流量提升解决方案,助力品牌曝光


最新版Sora2模型免费使用,一键生成无水印视频
最新版Sora2模型免费使用,一键生成无水印视频
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号