AI开源项目

共 93 篇网址

Tailor

一款集视频剪辑、生成和优化功能于一身的智能视频处理工具，凭借其简单易用的操作方式、强大的功能和智能高效的处理能力

885378

AI开源项目 # AI开源项目

EMO

一个创新的音频驱动肖像视频生成工具，凭借其简单的输入方式、丰富的表情生成能力、多语言支持以及对多种肖像风格的兼容性

884186

AI开源项目 # AI开源项目

HivisionIDPhotos

HivisionIDPhotos

HivisionIDPhotos是一个功能全面、操作简便的AI证件照制作工具。它不仅能够满足用户对证件照的基本制作需求，还提供了人像抠图、底色添加、排版照生成等高级功能

647402

AI开源项目 # AI开源项目

eSearch

一款综合性的屏幕识别和搜索工具，它通过集成多种实用功能，为用户提供了一个便捷的工作流程，从截图到文本识别，再到信息搜索和翻译，eSearch都能够提供高效的解决方案

1,304477

AI开源项目 # AI开源项目

SUPIR

一款功能强大且多用途的图像恢复工具，它通过结合AI技术和文本驱动的智能恢复，能够为用户提供高保真度的图像恢复服务

1,141206

AI开源项目 # AI开源项目

SeedEdit

一款功能强大且创新的图像编辑工具，它通过先进的扩散模型技术，实现了对图像的高精度和高审美的编辑

1,013334

AI开源项目 # AI开源项目

美图奇想大模型

提升了视频和图像的生成质量，广泛应用于影像美化、视频剪辑、电商设计、口播视频制作、广告营销和游戏设计等多个领域

571363

AI开源项目 # AI开源项目 # AI视觉模型 # 图像生成

I2VGen-XL：阿里推出的图生视频模型

I2VGen-XL：阿里推出的图生视频模型

一个强大的图像到视频的生成模型，它通过创新的方法解决了AI视频合成过程中的语义准确性、清晰度和时空连续性的挑战。用户可以轻松地将静态图像转换为高质量的动态视频，生成的视...

1,490333

AI开源项目 # AI开源项目 # 图像到视频生成 # 开源模型

OmniGen

创新的统一图像生成模型，它通过简化架构和整合多种图像生成任务，为用户提供了一个强大而灵活的工具。它不仅能够处理文本到图像的生成，还能够执行图像编辑、主题驱动生成和视觉...

1,053451

AI开源项目 # AI开源项目 # 多任务图像处理框架 # 多模态输入支持

UniEdit

UniEdit 是一个强大的视频编辑工具，它通过利用预训练的文本到视频生成器，在无需调优的情况下，提供了一种简单而有效的方法来编辑视频的运动和外观。

931124

AI开源项目 # AI开源项目 # 文本驱动编辑 # 无需调优

TextDiffuser-2

一个功能强大的图像生成工具，它通过扩散模型技术，根据文本描述生成高质量的图像。这个工具为用户提供了一种创新的方式来探索和实现他们的创意视觉概念。

1,308470

AI开源项目 # AI图像生成 # AI开源项目 # 内容创造

Snap Video

强大的文本到视频合成工具，它通过创新的技术架构和高效的深度学习模型，实现了高质量视频内容的生成。这款工具不仅在视频生成领域具有突破性，还为用户提供了一种全新的创作和表...

1,392280

AI开源项目 # AI开源项目 # AI视频合成 # Transformer架构

StarCoder 2

一个强大的代码生成和理解工具，它通过大规模训练和多样化的模型规模，为开发者提供了一个高性能的编程辅助平台。

890101

AI开源项目 # AI开源项目 # AI编程 # 代码理解

ChatMusician

通过结合先进的大型语言模型和音乐表示法，为音乐的理解和生成提供了一个强大的工具。它不仅能够创作音乐，还能理解和回答音乐理论问题，为音乐教育和创作提供了新的可能性。

985315

AI开源项目 # AI开源项目 # 和弦生成 # 多模态交互

OpenCodeInterpreter

OpenCodeInterpreter

通过结合大型语言模型和代码执行反馈，提供了一个强大的工具，可以帮助开发者在软件开发过程中提高效率和质量。

1,492475

AI开源项目 # AI开源项目 # 交互式代码开发 # 人工智能编程辅助

ScreenAgent

一个先进的计算机控制智能体，它通过观察屏幕截图和执行鼠标键盘动作来完成复杂的任务。它利用VLM和强化学习环境，可以在真实计算机屏幕上执行多步骤任务。

1,467143

AI开源项目 # AI开源项目 # ScreenAgent # VLM

ConsiStory

它提供了一种快速、高效且训练无关的方法来生成一致性图像，特别适用于需要保持主题一致性的应用场景。它不仅能够处理单主题场景，还能够应对多主题挑战，并与现有的图像编辑工具...

603183

AI开源项目 # AI开源项目

VideoPoet

强大的AI视频生成工具，它通过大型语言模型架构和多模态输入处理能力，实现了从文本到视频的转换、图像动画生成、视频风格化、视频编辑和音频生成等多种功能。

1,515231

AI开源项目 # AI开源项目 # AI视频合成 # Transformer架构

DiT

创新的图像生成模型，它通过结合扩散模型和Transformer架构，实现了在图像生成任务中的高效和高质量输出。其可扩展性和条件生成能力使其在多个领域都有广泛的应用潜力。

959319

AI开源项目 # AI开源项目 # Transformer架构 # 上下文条件

Boximator

强大的视频合成工具，它通过创新的框约束机制和自跟踪技术，实现了对视频中对象运动的精细控制。这使得它在电影制作、游戏开发、VR/AR内容创作等领域具有广泛的应用潜力。

1,430452

AI开源项目 # AI开源项目 # 交互式视频 # 人工智能

V-JEPA

创新的自监督学习模型，它通过预测视频帧的特征表示来学习视频的视觉表示。这种方法不仅能够处理视频内容，还能在图像任务上表现出色，具有广泛的应用潜力。

746326

AI开源项目 # AI开源项目 # Transformer模型 # 多模态学习

SFR-RAG

先进的大型语言模型，它通过强化对上下文的理解，提高了机器在生成文本方面的准确性和可靠性。无论是在客户服务、知识问答、内容创作还是专业咨询领域，SFR-RAG都能提供高质量的文...

731249

AI开源项目 # AI开源项目 # 上下文理解 # 函数调用

onewebot2

易于使用的微信AI机器人软件包，它通过简化的配置流程和一键运行功能，使得用户能够快速启动和运行微信机器人。无论是个人还是企业，都能通过oneWebot2创建智能助手，实现自动化服务

1,410276

AI开源项目 # AI开源项目 # API集成 # 一键运行

GOT-OCR2.0

创新的OCR模型，它通过先进的技术提供了精准、高效的OCR解决方案。无论是文档数字化、场景文本识别还是票据处理等应用场景，GOT-OCR 2.0都能提供强大的支持。

565491

AI开源项目 # AI开源项目 # 交互式OCR # 光学字符识别

Depth Anything

强大的单目深度估计工具，它通过利用大规模未标注数据和先进的数据增强技术，实现了在多种复杂环境下的准确深度预测。其多任务学习和语义辅助功能使其在多个领域都有广泛的应用潜力。

574145

AI开源项目 # 3D建模 # AI开源项目 # AR/VR融合

AnimateDiff

通过预训练的运动建模模块，使得用户能够轻松地创作出丰富多样的动画内容，同时保持了原有模型的风格和特性。它的跨领域应用性和易于集成的特点，极大地扩展了个性化动画的创作空间。

851420

AI开源项目 # AI开源项目 # Transformer模型 # 个性化内容生成

MMMLU

重要的多语言、多任务语言理解数据集，它为研究人员和开发者提供了一个标准化的测试基准，用于评估和提升AI模型在不同语言和文化背景下的性能。

1,437495

AI开源项目 # AI开源项目 # AI模型评估 # 国际化业务

Llama 3.2

在图像理解和文本处理任务上展现出卓越的性能，并通过定制化微调和本地部署，推动了AI技术的开放性和可访问性。

944157

AI开源项目 # AI大模型 # AI开源项目 # 图像理解

MIMO

创新的AI框架，它通过空间分解建模技术，提供了一种先进的可控角色视频合成方法。

1,465414

AI开源项目 # 3D感知合成 # AI开源项目 # AI框架

MotionCtrl

强大的视频生成工具，它通过精确控制视频中的相机和物体运动，为视频制作带来了新的可能性。无论是简单的运动场景还是复杂的交互动作，MotionCtrl都能够提供令人满意的解决方案。

870172

AI开源项目 # AI开源项目 # 人工智能 # 动画制作