Bio-Medical-Llama-3-8B

Bio-Medical-Llama-3-8B

适用于生物医学领域的精细化文本处理语言模型

Bio-Medical-Llama-3-8B模型在定制的BioMedData数据集上进行微调,特别适用于生物医学应用。通过超过500,000条多样化的样本,这一模型在生物医学领域展现高质量的知识覆盖。它能够生成与生物医学相关的文本,为研究人员和临床医生提供有价值的支持,但在高风险场景中使用时需确保信息准确性并负责任地应用。

医学生物医学模型GithubBio-Medical-Llama-3-8B开源项目大模型临床决策Huggingface

项目介绍:Bio-Medical-Llama-3-8B

项目概述

Bio-Medical-Llama-3-8B 是一种专为生物医学应用设计的大型语言模型。该模型经过细致的微调,使用了超过 50 万条多样化数据进行训练,其中包括合成数据和手动整理的数据样本。这一多样化的数据组合确保了模型在生物医学知识方面的广泛覆盖和高质量表现。

模型详情

  • 模型名称:Bio-Medical-Llama-3-8B
  • 基础模型:Meta-Llama-3-8B-Instruct
  • 参数数量:80 亿
  • 训练数据:定制的高质量生物医学数据集
  • 数据集条目数量:50 万+

模型描述

Bio-Medical-Llama-3-8B 专用于理解和生成与生物医学领域相关的文本。这使其成为研究人员、临床医生及其他生物医学领域专业人士的有力工具。通过在大量数据上进行微调,该模型能够提供与多种生物医学主题相关的可靠信息,从而在实际应用中具有高度的实用性。

评价指标

Bio-Medical-Llama-3-8B 的表现优于许多领先的大型语言模型。在多项评估任务中,如 medmcqa, medqa_4options, mmlu_anatomy 等,模型表现出色。

预期用途及局限性

预期用途

  • 研究支持:辅助研究人员进行文献回顾和从生物医学文本中抽取数据。
  • 临床决策支持:为临床决策过程提供有价值的信息。
  • 教育工具:为医学生和专业人士提供扩展知识库的资源。

局限性及伦理考虑

  • 偏见:模型可能继承训练数据中的偏见,尽管都经过精心的考虑和处理,但仍可能存在。
  • 准确性:模型的响应基于其已学习的数据模式,可能并不总是准确或最新。用户必须从可靠来源验证关键信息。
  • 伦理使用:特别是在临床环境中,模型应被负责地使用,以补充而不是替代专业判断和专业知识。

使用指南

要使用 Bio-Medical-Llama-3-8B 模型,可以参考如下代码:

import transformers import torch model_id = "ContactDoctor/Bio-Medical-Llama-3-8B" pipeline = transformers.pipeline( "text-generation", model=model_id, model_kwargs={"torch_dtype": torch.bfloat16}, device_map="auto", ) messages = [ {"role": "system", "content": "You are an expert trained on healthcare and biomedical domain!"}, {"role": "user", "content": "I'm a 35-year-old male and for the past few months, I've been experiencing fatigue, increased sensitivity to cold, and dry, itchy skin. What is the diagnosis here?"}, ] prompt = pipeline.tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) terminators = [ pipeline.tokenizer.eos_token_id, pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>") ] outputs = pipeline( prompt, max_new_tokens=256, eos_token_id=terminators, do_sample=True, temperature=0.6, top_p=0.9, ) print(outputs[0]["generated_text"][len(prompt):])

联络信息

如需更多信息、查询或有关 Biomed-LLM 的问题,请联系:

训练超参数

在训练过程中使用的主要超参数包括:

  • 学习率:0.0002
  • 训练批次大小:12
  • 评估批次大小:8
  • 随机种子:42
  • 梯度累积步数:4
  • 总训练批次大小:32
  • 优化器:Adam (betas=(0.9,0.999), epsilon=1e-08)
  • 学习率调度类型:cosine
  • 学习率预热比率:0.03
  • 训练步数:2000
  • 混合精度训练:Native AMP

框架版本

  • PEFT 0.11.0
  • Transformers 4.40.2
  • Pytorch 2.1.2
  • Datasets 2.19.1
  • Tokenizers 0.19.1

引用

如果在研究或应用中使用 Bio-Medical LLM,请引用如下:

@misc{ContactDoctor_Bio-Medical-Llama-3-8B,
  author = ContactDoctor,
  title = {Bio-Medical: A High-Performance Biomedical Language Model},
  year = {2024},
  howpublished = {https://huggingface.co/ContactDoctor/Bio-Medical-Llama-3-8B},
}

编辑推荐精选

Pixmax

Pixmax

一站式AI短剧创作平台

Pixmax专注打造下一代“ AI 视觉创作引擎”,整合行业顶尖 AI 大模型、工工业级精准控制及企业级协同管理功能,是全方位的 AI 内容创作平台。

豆包

豆包

字节跳动旗下 AI 智能助手

字节跳动旗下 AI 智能助手

GPT Plus|Pro充值

GPT Plus|Pro充值

GPT充值

支持 ChatGPT Plus / Pro 充值服务,支付便捷,自动发货,售后可查。

GPT Image 2中文站

GPT Image 2中文站

AI 图片生成平台

GPT Image 2 是面向用户的 AI 图片生成平台,支持文生图、图生图及多模型创意工作流。

Vecbase

Vecbase

你的AI Agent团队

Vecbase 是专为 AI 团队打造的智能工作空间,将数据管理、模型协作与知识沉淀整合于一处。算法、产品与业务在同一平台无缝协同,让从数据到 AI 应用的落地更快一步。

音述AI

音述AI

全球首个AI音乐社区

音述AI是全球首个AI音乐社区,致力让每个人都能用音乐表达自我。音述AI提供零门槛AI创作工具,独创GETI法则帮助用户精准定义音乐风格,AI润色功能支持自动优化作品质感。音述AI支持交流讨论、二次创作与价值变现。针对中文用户的语言习惯与文化背景进行专门优化,支持国风融合、C-pop等本土音乐标签,让技术更好地承载人文表达。

QoderWork

QoderWork

阿里Qoder团队推出的桌面端AI智能体

QoderWork 是阿里推出的本地优先桌面 AI 智能体,适配 macOS14+/Windows10+,以自然语言交互实现文件管理、数据分析、AI 视觉生成、浏览器自动化等办公任务,自主拆解执行复杂工作流,数据本地运行零上传,技能市场可无限扩展,是高效的 Agentic 生产力办公助手。

lynote.ai

lynote.ai

一站式搞定所有学习需求

不再被海量信息淹没,开始真正理解知识。Lynote 可摘要 YouTube 视频、PDF、文章等内容。即时创建笔记,检测 AI 内容并下载资料,将您的学习效率提升 10 倍。

AniShort

AniShort

为AI短剧协作而生

专为AI短剧协作而生的AniShort正式发布,深度重构AI短剧全流程生产模式,整合创意策划、制作执行、实时协作、在线审片、资产复用等全链路功能,独创无限画布、双轨并行工业化工作流与Ani智能体助手,集成多款主流AI大模型,破解素材零散、版本混乱、沟通低效等行业痛点,助力3人团队效率提升800%,打造标准化、可追溯的AI短剧量产体系,是AI短剧团队协同创作、提升制作效率的核心工具。

seedancetwo2.0

seedancetwo2.0

能听懂你表达的视频模型

Seedance two是基于seedance2.0的中国大模型,支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控。

下拉加载更多