Bio-Medical-Llama-3-8B

项目介绍：Bio-Medical-Llama-3-8B

项目概述

Bio-Medical-Llama-3-8B 是一种专为生物医学应用设计的大型语言模型。该模型经过细致的微调，使用了超过 50 万条多样化数据进行训练，其中包括合成数据和手动整理的数据样本。这一多样化的数据组合确保了模型在生物医学知识方面的广泛覆盖和高质量表现。

模型详情

模型名称：Bio-Medical-Llama-3-8B
基础模型：Meta-Llama-3-8B-Instruct
参数数量：80 亿
训练数据：定制的高质量生物医学数据集
数据集条目数量：50 万+

模型描述

Bio-Medical-Llama-3-8B 专用于理解和生成与生物医学领域相关的文本。这使其成为研究人员、临床医生及其他生物医学领域专业人士的有力工具。通过在大量数据上进行微调，该模型能够提供与多种生物医学主题相关的可靠信息，从而在实际应用中具有高度的实用性。

评价指标

Bio-Medical-Llama-3-8B 的表现优于许多领先的大型语言模型。在多项评估任务中，如 medmcqa, medqa_4options, mmlu_anatomy 等，模型表现出色。

预期用途及局限性

预期用途

研究支持：辅助研究人员进行文献回顾和从生物医学文本中抽取数据。
临床决策支持：为临床决策过程提供有价值的信息。
教育工具：为医学生和专业人士提供扩展知识库的资源。

局限性及伦理考虑

偏见：模型可能继承训练数据中的偏见，尽管都经过精心的考虑和处理，但仍可能存在。
准确性：模型的响应基于其已学习的数据模式，可能并不总是准确或最新。用户必须从可靠来源验证关键信息。
伦理使用：特别是在临床环境中，模型应被负责地使用，以补充而不是替代专业判断和专业知识。

使用指南

要使用 Bio-Medical-Llama-3-8B 模型，可以参考如下代码：

import transformers
import torch

model_id = "ContactDoctor/Bio-Medical-Llama-3-8B"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are an expert trained on healthcare and biomedical domain!"},
    {"role": "user", "content": "I'm a 35-year-old male and for the past few months, I've been experiencing fatigue, increased sensitivity to cold, and dry, itchy skin. What is the diagnosis here?"},
]

prompt = pipeline.tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

联络信息

如需更多信息、查询或有关 Biomed-LLM 的问题，请联系：

电子邮件：info@contactdoctor.in
网站：https://www.contactdoctor.in

训练超参数

在训练过程中使用的主要超参数包括：

学习率：0.0002
训练批次大小：12
评估批次大小：8
随机种子：42
梯度累积步数：4
总训练批次大小：32
优化器：Adam (betas=(0.9,0.999), epsilon=1e-08)
学习率调度类型：cosine
学习率预热比率：0.03
训练步数：2000
混合精度训练：Native AMP

框架版本

PEFT 0.11.0
Transformers 4.40.2
Pytorch 2.1.2
Datasets 2.19.1
Tokenizers 0.19.1

引用

如果在研究或应用中使用 Bio-Medical LLM，请引用如下：

@misc{ContactDoctor_Bio-Medical-Llama-3-8B,
  author = ContactDoctor,
  title = {Bio-Medical: A High-Performance Biomedical Language Model},
  year = {2024},
  howpublished = {https://huggingface.co/ContactDoctor/Bio-Medical-Llama-3-8B},
}