最佳Github AI工具与开源项目集锦

PETR

PETR

3D目标检测多视图感知

多视角3D感知框架 目标检测与BEV分割的统一解决方案

inaSpeechSegmenter

inaSpeechSegmenter

语音分割性别识别

CNN音频分割工具包实现语音检测与性别识别

video2dataset

video2dataset

video2dataset视频数据集

快速构建大规模视频数据集的开源工具

media-extended

media-extended

多媒体集成播放控制

Obsidian多媒体增强插件 丰富笔记内容体验

python-mpv

python-mpv

python-mpvlibmpv

Python接口为mpv媒体播放器提供全面控制

react-native-compressor

react-native-compressor

React Native媒体压缩

React Native多媒体文件压缩库

aravis

aravis

Aravis视频采集

跨平台开源视频采集库 支持Genicam工业相机

hdmi

hdmi

HDMIFPGA

FPGA上的开源HDMI 1.4b视频音频输出方案

Videomass

Videomass

VideomassFFmpeg

跨平台FFmpeg和yt-dlp图形界面多媒体处理工具

Av1an

Av1an

Av1an视频编码

并行视频编码框架,提升编码速度和CPU利用率

UniversalMediaServer

UniversalMediaServer

Universal Media ServerDLNA

多功能跨平台媒体服务器 支持广泛格式和设备

staxrip

staxrip

StaxRip视频处理

多功能视频处理软件 整合多种编码工具和脚本

DigiHuman

DigiHuman

DigiHuman3D动画生成

基于摄像头输入的3D角色全身动画生成系统

PaddleRS

PaddleRS

遥感影像深度学习

多任务遥感影像智能解译套件 支持全流程深度学习应用

sunone_aimbot

sunone_aimbot

Sunone AimbotAI辅助瞄准

基于深度学习的FPS游戏智能瞄准工具

text_classifier_tf2

text_classifier_tf2

文本分类深度学习模型

多模型文本分类框架 支持TextCNN、BERT等

YoloDotNet

YoloDotNet

YoloDotNet对象检测

基于C#的Yolov8和Yolov10实时目标检测库

Fast-BEV

Fast-BEV

Fast-BEV鸟瞰图感知

新一代鸟瞰视角感知系统

Recorder

Recorder

HTML5录音音频处理

多平台支持的HTML5录音和实时音频处理库

Entity

Entity

EntitySeg图像分割

开源工具箱实现开放世界高质量图像分割