AlphaTree-graphic-deep-neural-network

AlphaTree-graphic-deep-neural-network

深入探索深度学习与AI应用

AlphaTree项目致力于通过详细的文章、代码和图示帮助用户掌握深度学习、GAN、NLP和大数据等领域的技术,适合希望在AI工程领域提升技能的学习者。

AlphaTree深度学习神经网络图像分类模型改进Github开源项目

title

AlphaTree : DNN && GAN && NLP && BIG DATA 从新手到深度学习应用工程师

从AI研究的角度来说,AI的学习和跟进是有偏向性的,更多的精英是擅长相关的一到两个领域,在这个领域做到更好。而从AI应用工程师的角度来说,每一个工程都可能涉及很多个AI的方向,而他们需要了解掌握不同的方向才能更好的开发和设计。

但是AI中每一个领域都在日新月异的成长。而每一位研究人员写paper的风格都不一样,相似的模型,为了突出不同的改进点,他们对模型的描述和图示都可能大不相同。为了帮助更多的人在不同领域能够快速跟进前沿技术,我们构建了“AlphaTree计划”,每一篇文章都会对应文章,代码,然后进行图示输出。

在面试到一些同学的时候,他们总是信誓旦旦的表示要转深度学习,但是存在能推导公式,但是一到深入理念,或者工程项目细节就两眼一抹黑。有没有一个项目,能一个一个项目帮助大家理解深度学习的发展同时也提高应用能力。

基于这种想法,邀请了几位资深程序员加入这个项目。希望丰富的资源能够帮助到大家。

版权申明:CC-BY-NC-SA 知识共享-署名-非商业性-相同方式共享

1 AI千集 www.aiqianji.com 以AI应用为目的 的一个社区。 ( AI+ Creation = Change the world。 AI千集在研究一些智能创作的事情,现在每天都会更新AI自己筛选的文章等等。 试试让AI 来服务于大家,)

公众号 千集技术

智能创作 主要各家gpt模型和接口都已经接入,用AI处理文字日常,已经到来。 AI绘图我们也做了很久,给to b训了很多独家模型。最近在研究to c一些有趣的玩法。

2 AIGC 导航网站 2022年被称为AIGC的元年,写作,绘画,音乐,日新月异。 这个由于更新迭代很快,因此将常用的软件做了导航。

https://www.icoderobot.com/

3 AlphaCreation -之宝贝计划

小学生 关于AI的题目自用版

扫码打开:

知乎:点这里

微信: gingo_alphatree 邮箱: 5009024@qq.com

Sora 相关

官网:https://openai.com/sora

https://github.com/hpcaitech/Open-Sora

https://github.com/lichao-sun/mora

经典部分

深度学习在解决分类问题上非常厉害。让它声名大噪的也是对于图像分类问题的解决。也产生了很多很经典的模型。其他方向的模型发展很多都是源于这部分,它是很多模型的基础工作。因此我们首先了解一下它们。

object classification

从模型的发展过程中,随着准确率的提高,网络结构也在不断的进行改进,现在主要是两个方向,一是深度,二是复杂度。此外还有卷积核的变换等等。

深度神经网络的发展要从经典的LeNet模型说起,那是1998年提出的一个模型,在手写数字识别上达到商用标准。之后神经网络的发展就由于硬件和数据的限制,调参的难度等各种因素进入沉寂期。

到了2012年,Alex Krizhevsky 设计了一个使用ReLu做激活函数的AlexNet 在当年的ImageNet图像分类竞赛中(ILSVRC 2012),以top-5错误率15.3%拿下第一。 他的top-5错误率比上一年的冠军下降了十个百分点,而且远远超过当年的第二名。而且网络针对多GPU训练进行了优化设计。从此开始了深度学习的黄金时代。

大家发表的paper一般可以分为两大类,一类是网络结构的改进,一类是训练过程的改进,如droppath,loss改进等。

之后网络结构设计发展主要有两条主线,一条是Inception系列(即上面说的复杂度),从GoogLeNet 到Inception V2 V3 V4,Inception ResNet。 Inception module模块在不断变化,一条是VGG系列(即深度),用简单的结构,尽可能的使得网络变得更深。从VGG 发展到ResNet ,再到DenseNet ,DPN等。

最终Google Brain用500块GPU训练出了比人类设计的网络结构更优的网络NASNet,最近训出了mNasNet。

此外,应用方面更注重的是,如何将模型设计得更小,这中间就涉及到很多卷积核的变换。这条路线则包括 SqueezeNet,MobileNet V1 V2 Xception shuffleNet等。

ResNet的变种ResNeXt 和SENet 都是从小模型的设计思路发展而来。

输入:图片 输出:类别标签

allmodel

模型名AlexNetZFNetVGGGoogLeNetResNet
初入江湖20122013201420142015
层数881922152
Top-5错误16.4%11.2%7.3%6.7%3.57%
Data Augmentation+++++
Inception(NIN)---+-
卷积层数551621151
卷积核大小11,5,37,5,337,1,3,57,1,3
全连接层数33311
全连接层大小4096,4096,10004096,4096,10004096,4096,100010001000
Dropout+++++
Local Response Normalization++-+-
Batch Normalization----+

ILSVRC2016 2016年的 ILSVRC,来自中国的团队大放异彩:

CUImage(商汤和港中文),Trimps-Soushen(公安部三所),CUvideo(商汤和港中文),HikVision(海康威视),SenseCUSceneParsing(商汤和香港城市大学),NUIST(南京信息工程大学)包揽了各个项目的冠军。

CUImage(商汤科技和港中文):目标检测第一; Trimps-Soushen(公安部三所):目标定位第一; CUvideo(商汤和港中文):视频中物体检测子项目第一; NUIST(南京信息工程大学):视频中的物体探测两个子项目第一; HikVision(海康威视):场景分类第一; SenseCUSceneParsing(商汤和港中文):场景分析第一。 其中,Trimps-Soushen 以 2.99% 的 Top-5 分类误差率和 7.71% 的定位误差率赢得了 ImageNet 分类任务的胜利。该团队使用了分类模型的集成(即 Inception、Inception-ResNet、ResNet 和宽度残差网络模块的平均结果)和基于标注的定位模型 Faster R-CNN 来完成任务。训练数据集有 1000 个类别共计 120 万的图像数据,分割的测试集还包括训练未见过的 10 万张测试图像。

ILSVRC 2017 Momenta 提出的SENet 获得了最后一届 ImageNet 2017 竞赛 Image Classification 任务的冠军, 2.251% Top-5 错误率

模型总览 <- 之前展示所有模型的主页挪到这里来了。点这里 点这里


模型索引:

<table> <tr> <td align="center"><a href="https://github.com/weslynn/AlphaTree-graphic-deep-neural-network/blob/master/DNN%E6%B7%B1%E5%BA%A6%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/object%20classification%20%E7%89%A9%E4%BD%93%E5%88%86%E7%B1%BB/LeNet.md">LeNet</a></td> <td align="center"><a href="https://github.com/weslynn/AlphaTree-graphic-deep-neural-network/blob/master/DNN%E6%B7%B1%E5%BA%A6%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/object%20classification%20%E7%89%A9%E4%BD%93%E5%88%86%E7%B1%BB/AlexNet.md">AlexNet</a></td> <td align="center"><a href="https://github.com/weslynn/graphic-deep-neural-network/blob/master/DNN%E6%B7%B1%E5%BA%A6%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/object%20classification%20%E7%89%A9%E4%BD%93%E5%88%86%E7%B1%BB/GoogLeNet.md">GoogLeNet</a></td> <td align="center"><a href="https://github.com/weslynn/graphic-deep-neural-network/blob/master/DNN%E6%B7%B1%E5%BA%A6%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/object%20classification%20%E7%89%A9%E4%BD%93%E5%88%86%E7%B1%BB/InceptionV3.md">Inception V3</a></td> <td align="center"><a href="https://github.com/weslynn/graphic-deep-neural-network/blob/master/DNN%E6%B7%B1%E5%BA%A6%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/object%20classification%20%E7%89%A9%E4%BD%93%E5%88%86%E7%B1%BB/VGG.md">VGG</a></td> <td align="center"><a href="https://github.com/weslynn/graphic-deep-neural-network/blob/master/DNN%E6%B7%B1%E5%BA%A6%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/object%20classification%20%E7%89%A9%E4%BD%93%E5%88%86%E7%B1%BB/ResNet.md">ResNet and ResNeXt</a></td> </tr> <tr> <td align="center"><a href="https://github.com/weslynn/graphic-deep-neural-network/blob/master/DNN%E6%B7%B1%E5%BA%A6%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/object%20classification%20%E7%89%A9%E4%BD%93%E5%88%86%E7%B1%BB/InceptionResnetV2.md">Inception-Resnet-V2</a></td> <td align="center"><a href="https://github.com/weslynn/graphic-deep-neural-network/blob/master/DNN%E6%B7%B1%E5%BA%A6%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/object%20classification%20%E7%89%A9%E4%BD%93%E5%88%86%E7%B1%BB/DenseNet.md">DenseNet</a></td> <td align="center"><a href="https://github.com/weslynn/graphic-deep-neural-network/blob/master/DNN%E6%B7%B1%E5%BA%A6%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/object%20classification%20%E7%89%A9%E4%BD%93%E5%88%86%E7%B1%BB/DPN.md">DPN</a></td> <td align="center"><a href="https://github.com/weslynn/graphic-deep-neural-network/blob/master/DNN%E6%B7%B1%E5%BA%A6%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/object%20classification%20%E7%89%A9%E4%BD%93%E5%88%86%E7%B1%BB/PolyNet.md">PolyNet</a></td> <td align="center"><a href="https://github.com/weslynn/graphic-deep-neural-network/blob/master/DNN%E6%B7%B1%E5%BA%A6%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/object%20classification%20%E7%89%A9%E4%BD%93%E5%88%86%E7%B1%BB/SENet.md">SENet</a></td> <td align="center"><a href="">NasNet</a></td> </tr> </table>

深度学习应用

<a href="https://raw.githubusercontent.com/weslynn/graphic-deep-neural-network/master/map/mapclean_1.5.png"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/886acfb7-5eea-4a52-b740-7996d309ca67.png" width="1200"> </a>

<table> <tr> <td align="center"><a href="">轻量级模型 & 剪枝</a></td> <td align="center"><a href="https://github.com/weslynn/AlphaTree-graphic-deep-neural-network/tree/master/DNN%E6%B7%B1%E5%BA%A6%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/object%20detection%20and%20segmentation%20%E7%89%A9%E4%BD%93%E6%A3%80%E6%B5%8B%E4%B8%8E%E5%88%86%E5%89%B2">物体检测Object Detection </a></td> <td align="center"><a href="https://github.com/weslynn/AlphaTree-graphic-deep-neural-network/tree/master/DNN%E6%B7%B1%E5%BA%A6%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/object%20detection%20and%20segmentation%20%E7%89%A9%E4%BD%93%E6%A3%80%E6%B5%8B%E4%B8%8E%E5%88%86%E5%89%B2">物体分割Object Segmentation</a></td> <td align="center"><a href="https://github.com/weslynn/AlphaTree-graphic-deep-neural-network/tree/master/DNN%E6%B7%B1%E5%BA%A6%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/OCR%E5%AD%97%E7%AC%A6%E8%AF%86%E5%88%AB">OCR</a></td> </tr> <tr> <td align="center"><a href="https://github.com/weslynn/AlphaTree-graphic-deep-neural-network/tree/master/DNN%E6%B7%B1%E5%BA%A6%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/face%20detection%20and%20recognition%E4%BA%BA%E8%84%B8%E6%A3%80%E6%B5%8B%E4%B8%8E%E8%AF%86%E5%88%AB">人脸检测Face Detection</a></td> <td align="center"><a href="https://github.com/weslynn/AlphaTree-graphic-deep-neural-network/tree/master/DNN%E6%B7%B1%E5%BA%A6%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/face%20detection%20and%20recognition%E4%BA%BA%E8%84%B8%E6%A3%80%E6%B5%8B%E4%B8%8E%E8%AF%86%E5%88%AB">人脸识别Face Recognition</a></td> <td align="center"><a href="">肢体检测Pose Detection(coming soon)</a></td> <td align="center"><a href="">3D(coming soon)</a></td> </table>

ObjectDetection&Seg 物体分类(物体识别)解决的是这个东西是什么的问题(What)。而物体检测则是要解决这个东西是什么,具体位置在哪里(What and Where)。
物体分割则将物体和背景进行区分出来,譬如人群,物体分割中的实例分割则将人群中的每个人都分割出来。
输入: 图片 输出: 类别标签和bbox(x,y,w,h)
pic1


GAN基础

<a href="https://github.com/weslynn/AlphaTree-graphic-deep-neural-network/tree/master/GAN%E5%AF%B9%E6%8A%97%E7%94%9F%E6%88%90%E7%BD%91%E7%BB%9C"><img src="https://yellow-cdn.veclightyear.com/35dd4d3f/73c027d3-c1b8-453a-b6bf-b90b119ad361.png"></a>

参考Mohammad KHalooei的教程,我也将GAN分为4个level,第四个level将按照应用层面进行拓展。这里基础部分包括Gan的定义,GAN训练上的改进,那些优秀的GAN。具体可以参见 GAN 对抗生成网络发展总览

GAN的定义 Level 0: Definition of GANs

LevelTitleCo-authorsPublicationLinks
BeginnerGAN : Generative Adversarial NetsGoodfellow & et al.NeurIPS (NIPS) 2014link
BeginnerGAN : Generative Adversarial Nets (Tutorial)Goodfellow & et al.NeurIPS (NIPS) 2016 Tutoriallink
BeginnerCGAN : Conditional Generative Adversarial NetsMirza & et al.-- 2014link
BeginnerInfoGAN : Interpretable Representation Learning by Information Maximizing Generative Adversarial NetsChen & et al.NeuroIPS (NIPS) 2016

模型结构的发展:

ganmodule


<table> <tr> <td align="center"><a href="">CGAN</a></td> <td align="center"><a href="">LAPGAN</a></td> <td align="center"><a href="">IcGAN</a></td> <td align="center"><a href="">ACGAN</a></td> <td align="center"><a href="">SemiGan /SSGAN</a></td> <td align="center"><a href="">InfoGan</a></td> </tr> </table>

GAN训练上的改进 Level1:Improvements of GANs training

然后看看 loss、参数、权重的改进:

LevelTitleCo-authorsPublicationLinks
BeginnerLSGAN : Least Squares Generative Adversarial NetworksMao & et al.ICCV 2017link
AdvancedImproved Techniques for Training GANsSalimans & et al.NeurIPS (NIPS) 2016link
AdvancedWGAN : Wasserstein GANArjovsky & et al.ICML 2017link
AdvancedWGAN-GP : improved Training of Wasserstein GANs2017link
AdvancedCertifying Some Distributional Robustness with Principled Adversarial TrainingSinha & et al.ICML 2018link code

Loss Functions:

LSGAN(Least Squares Generative Adversarial Networks)

LS-GAN - Guo-Jun Qi, arxiv: 1701.06264

[2] Mao et al., 2017.4 pdf

https://github.com/hwalsuklee/tensorflow-generative-model-collections
https://github.com/guojunq/lsgan

用了最小二乘损失函数代替了GAN的损失函数,缓解了GAN训练不稳定和生成图像质量差多样性不足的问题。

但缺点也是明显的, LSGAN对离离群点的过度惩罚, 可能导致样本生成的'多样性'降低, 生成样本很可能只是对真实样本的简单模仿和细微改动。

WGAN

WGAN - Martin Arjovsky, arXiv:1701.07875v1

WGAN:
在初期一个优秀的GAN应用需要有良好的训练方法,否则可能由于神经网络模型的自由性而导致输出不理想。

为啥难训练? 令人拍案叫绝的Wasserstein GAN 中做了如下解释 :
原始GAN不稳定的原因就彻底清楚了:判别器训练得太好,生成器梯度消失,生成器loss降不下去;判别器训练得不好,生成器梯度不准,四处乱跑。只有判别器训练得不好不坏才行,但是这个火候又很难把握,甚至在同一轮训练的前后不同阶段这个火候都可能不一样,所以GAN才那么难训练。

https://zhuanlan.zhihu.com/p/25071913

WGAN 针对loss改进 只改了4点:
1.判别器最后一层去掉sigmoid
2.生成器和判别器的loss不取log
3.每次更新判别器的参数之后把它们的绝对值截断到不超过一个固定常数c
4.不要用基于动量的优化算法(包括momentum和Adam),推荐RMSProp,SGD也行

https://github.com/martinarjovsky/WassersteinGAN

WGAN-GP

Regularization and Normalization of the Discriminator:

wgangp

WGAN-GP:

WGAN的作者Martin Arjovsky不久后就在reddit上表示他也意识到没能完全解决GAN训练稳定性,认为关键在于原设计中Lipschitz限制的施加方式不对,并在新论文中提出了相应的改进方案--WGAN-GP ,从weight clipping到gradient penalty,提出具有梯度惩罚的WGAN(WGAN with gradient penalty)替代WGAN判别器中权重剪枝的方法(Lipschitz限制):

[1704.00028] Gulrajani et al., 2017,improved Training of Wasserstein GANspdf

Tensorflow实现:https://github.com/igul222/improved_wgan_training

pytorch https://github.com/caogang/wgan-gp

GAN的实现 Level 2: Implementation skill

标题合著者发布链接大小FID/IS
GAN的Keras实现Linder-NorénGithub链接
GAN实现技巧Salimans论文 & Chintala世界研究链接 论文
DCGAN: 用深度卷积生成对抗网络进行无监督表示学习Radford 等ICLR 2016链接 论文64x64 人类
ProGAN: 逐步增长的GAN以提高质量、稳定性和变化性Tero Karras2017论文 链接1024x1024 人类8.04
SAGAN:自注意生成对抗网络Han Zhang & Ian Goodfellow2018.05论文 链接128x128 物体18.65/52.52
BigGAN:大规模GAN训练以生成高保真自然图像Brock 等ICLR 2019展示 论文 链接512x512 物体9.6/166.3
StyleGAN:一种基于Style的生成对抗网络生成器架构Tero Karras2018论文 链接1024x1024 人类4.04

指标:

1 生成质量分数 (IS,越大越好) IS用来衡量GAN网络的两个指标:1. 生成图片的质量 和2. 多样性

2 Fréchet生成质量距离 (FID,越小越好) 在FID中我们用相同的inception网络来提取中间层的特征。然后我们使用一个均值为 μμ 方差为 ΣΣ 的正态分布去模拟这些特征的分布。较低的FID意味着较高图片的质量和多样性。FID对模型坍塌更加敏感。

FID和IS都是基于特征提取,也就是依赖于某些特征的出现或者不出现。但是他们都无法描述这些特征的空间关系。

物体的数据在Imagenet数据库上比较,人脸的 progan 和stylegan 在CelebA-HQ和FFHQ上比较。上表列的为FFHQ指标。

具体可以参见 GAN 对抗生成网络发展总览

GAN的应用 Level 3: GANs应用

3-1 GANs 在计算机视觉中的应用

<table> <tr> <td align="center"><a href="https://github.com/weslynn/AlphaTree-graphic-deep-neural-network/tree/master/GAN对抗生成网络/Image-translation图像翻译">图像翻译 (Image Translation)</a></td> <td align="center"><a href="https://github.com/weslynn/AlphaTree-graphic-deep-neural-network/tree/master/GAN对抗生成网络/Super-Resolution超分辨率">超分辨率 (Super-Resolution)</a></td> <td align="center"><a href="https://github.com/weslynn/AlphaTree-graphic-deep-neural-network/tree/master/GAN对抗生成网络/Colourful-Image%20Colorization图像上色%20%20">图像上色(Colourful Image Colorization)</a></td> </tr> <tr> <td align="center"><a href="https://github.com/weslynn/AlphaTree-graphic-deep-neural-network/blob/master/GAN对抗生成网络/Image%20Inpainting图像修复/README.md"> 图像修复(Image Inpainting)</a></td> <td align="center"><a href="https://github.com/weslynn/AlphaTree-graphic-deep-neural-network/tree/master/GAN对抗生成网络/Image-denoising图像去噪">图像去噪(Image denoising)</a></td> <td align="center"><a href="https://github.com/weslynn/AlphaTree-graphic-deep-neural-network/tree/master/GAN对抗生成网络/交互式图像生成">交互式图像生成</a></td> </table>

特殊领域与应用

<table> <tr> <td align="center"><a href="https://github.com/weslynn/AlphaTree-graphic-deep-neural-network/tree/master/GAN对抗生成网络/comic-anime-manga漫画">漫画 (comic、anime、manga)</a></td> <td align="center"><a href="https://github.com/weslynn/AlphaTree-graphic-deep-neural-network/tree/master/GAN对抗生成网络/face-changing换脸">换脸 (face changing)</a></td> </tr> </table>

3-2 GANs在视频中的应用

3-3 GANs在NLP/语音中的应用


风格迁移

<table> <tr> <td align="center"><a href="https://github.com/weslynn/AlphaTree-graphic-deep-neural-network/tree/master/GAN%E5%AF%B9%E6%8A%97%E7%94%9F%E6%88%90%E7%BD%91%E7%BB%9C/Neural-Style%E9%A3%8E%E6%A0%BC%E8%BF%81%E7%A7%BB">风格迁移</a></td> </tr> </table>

语音克隆 Voice Cloning

如何训练个性化语音

模型名特点文章名称文章链接Github
WaveNet不是端到端的,输入并不是raw text而是经过处理的特征,代替了传统TTS pipeline的后端Wavenet:a generative model for raw audio链接
WaveRNN一般作为Tacotron的Vocoder来合成音频Efficient Neural Audio Synthesispdf链接
Tacotron第一个端对端的TTS神经网络模型 vocoder 需要改进链接
Tacotron 2https://github.com/NVIDIA/tacotron2
中文语音合成https://github.com/lturing/tacotronv2_wavernn_chinese
SV2TTSGoogleTransfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesispdfhttps://github.com/CorentinJ/Real-Time-Voice-Cloning
中文语音合成链接 链接

NLP (即将到来)


大数据 (即将到来)

AIGC

stable diffusion

▶Automatic 1111:目前功能最完善最好用的stable diffusion网页版 网页链接

DreamBooth

▶DreamBooth:finetune(微调训练)自己的stable diffusion模型 网页链接

工具类

▶AdCreative.ai:专注于广告平面内容生成的AI 网页链接

▶AutoDraw:一个能够将你丑丑的简笔画自动平滑修复的网页工具 网页链接

▶Clip Interrogator:text to image的逆向工程——根据你上传的图片给出生成这个图片最可能的prompt引导词 网页链接

一树一获者,谷也;一树十获者,木也;一树百获者;人也。 希望我们每一个人的努力,能够建立一片森林,为后人投下一片树荫。

每一位加入的作者,都可以选取植物的名称来表示自己,然后logo和名字将会作为自己的署名。

我希望,这终将成为一片森林。

此外,关于深度学习系统中模型结构要怎样设计,特定的任务要不要加入特定的结构和方法,Yann LeCun 和 Christopher Manning 有一个讨论,大家可以看一看 https://youtu.be/fKk9KhGRBdI 雷锋网有介绍 https://www.leiphone.com/news/201804/6l2mAsZQCQG2qYbi.html

编辑推荐精选

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

热门AI工具AI办公办公工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

模型训练热门AI工具内容创作智能问答AI开发讯飞星火大模型多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

热门AI工具生产力协作转型TraeAI IDE
咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

AI助手热门AI工具AI创作AI辅助写作讯飞绘文内容运营个性化文章多平台分发
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

Hunyuan3D-2

Hunyuan3D-2

高分辨率纹理 3D 资产生成

Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。

3FS

3FS

一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。

3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。

下拉加载更多