phi-1

Phi-1项目简介

项目概述

Phi-1是一个拥有13亿参数的Transformer语言模型，专门用于基础的Python编码。在其训练过程中，使用了多种数据来源，其中包括Python代码的子集，来源于The Stack v1.2，还包括来自StackOverflow的问答内容、code_contests中的竞赛代码，以及由gpt-3.5-turbo-0301生成的合成Python教科书和习题。尽管Phi-1模型及其数据集相较于其他大型语言模型(Large Language Models, LLMs)而言较小，但其在HumanEval这一简单的Python编码基准上，取得了超过50%的准确率。

使用方法

Phi-1已经被集成到transformers 4.37.0版本及其以后版本中。因此，用户在使用时需确保使用相应版本或更高版本的transformers。

主要应用

由于训练数据的特性，Phi-1主要适用于使用代码格式的提示，例如：

def print_prime(n):
   """
   Print all primes between 1 and n
   """
   for num in range(2, n+1):
       for i in range(2, num):
           if num % i == 0:
               break
       else:
           print(num)

在这样的格式中，模型会在注释后生成代码。（注意：这是Python循环中else语句的合法正确用法。）

注意事项：

Phi-1旨在用于编码目的。模型生成的代码应被视为一个起点，而非潜在用例的最终方案。用户在应用此模型时需谨慎。
Phi-1尚未在生产级代码中进行充分测试，因此不建议直接用于生产编码任务。

示例代码

以下是如何使用Phi-1模型的示例代码：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

torch.set_default_device("cuda")

model = AutoModelForCausalLM.from_pretrained("microsoft/phi-1", torch_dtype="auto")
tokenizer = AutoTokenizer.from_pretrained("microsoft/phi-1")

inputs = tokenizer('''def print_prime(n):
   """
   Print all primes between 1 and n
   """''', return_tensors="pt", return_attention_mask=False)

outputs = model.generate(**inputs, max_length=200)
text = tokenizer.batch_decode(outputs)[0]
print(text)

Phi-1的局限性

范围有限：模型使用的数据集中的99.8%只涉及"typing, math, random, collections, datetime, itertools"这些Python包。如果生成的脚本使用了其他的包，强烈建议用户手动验证所有API的使用。
在线脚本复制：由于模型在训练中使用了网络上的Python脚本，有可能会重复它们，尤其是那些在不同网络来源中反复出现的脚本。
生成不准确的代码：模型常会产生不正确的代码。我们建议用户将这些输出视作灵感来源而非最终解决方案。
与非代码格式的响应不可靠：模型似乎能够理解Q&A或聊天格式的指令，但提供的答案常不准确。
自然语言理解能力有限：Phi-1的主要功能是解决与编码相关的问题。虽然具备一定的自然语言理解能力，但它并非用于一般对话或展示常识。
潜在的偏见：训练数据中可能含有偏见和错误，这可能会影响模型的表现。