15 篇文章带有标签 “open-source”

2026年7月6日星期一

开源 AI 生态研究项目 Git 大文件 LFS 配置教程与团队开发指南

GitHub 仓库初始化

git init
git add .
git commit -m "first commit"

关联远程仓库并推送

git remote add origin https://github.com/wang-junjian/open-ai-eco.git
git branch -M main
git push -u origin main

视频没有使用 Git LFS

remote: warning: File public/videos/open-design-webprototype.mp4 is 84.20 MB; this is larger than GitHub's recommended maximum file size of 50.00 MB
remote: warning: GH001: Large files detected. You may want to try Git Large File Storage - https://git-lfs.github.com.
remote: warning: See https://gh.io/lfs for more information.

解决方案：

一、全局配置 public/videos/ 下所有文件走 Git LFS 1.

2026-07-06 21:21

2026年7月4日星期六

链接

GraphvizOnline - 浏览器端的 DOT 语言即时图可视化工具

GraphvizOnline 是一个纯客户端的在线 Graphviz 编辑器与查看器，让你在浏览器中直接编写 DOT 代码并即时渲染图表，无需安装任何软件或服务器端处理。

其核心定位可以概括为以下几个方面：

1. 产品核心能力

实时编辑与渲染：左侧编写 DOT 代码，右侧即时预览渲染结果，即写即所得。
多格式导出：支持导出为 SVG（矢量）、PNG（位图）和纯文本 DOT。
语法错误提示：DOT 代码有误时显示编译错误信息，而非白屏崩溃。
URL 分享：DOT 源码可编码进 URL 直接分享给他人。
Gist 加载：通过 ?url= 参数从 GitHub Gist 或其他公开 URL 加载图定义。
演示模式：?presentation= 参数支持 editable、hide-options、show-engine、show-format、show-raw、show-download、show-share 等多种展示模式，可无缝嵌入技术文档或 PPT 链接。
暗色主题：内置深色模式。
SVG 平移缩放：渲染结果支持鼠标拖拽与滚轮缩放，也集成 Hammer.js 支持移动端触控操作。
零数据外传：所有渲染都在浏览器本地完成，源代码不会发送到任何外部服务器。

2. 技术栈与开源信息

图渲染引擎基于 Viz.js，将 Graphviz C 代码通过 Emscripten 编译为 JavaScript，在浏览器内完成 DOT 解析与布局。
SVG 渲染与过渡动画由 d3-graphviz 提供（基于 D3.js），交互体验更加平滑。
代码编辑器使用 Ace-editor，提供 DOT 语法高亮、行号、代码折叠等 IDE 级编辑体验。
整体为纯前端项目：JavaScript 88.3% / CSS 8.6% / HTML 3.1%，无任何后端服务。
采用 BSD-3-Clause 许可证，完全免费开源，可自由修改与商用。
在 GitHub 上已获得 986 Stars 和 248 Forks，共 57 次提交。

2026-07-04 03:02

browser diagram dot-language graphviz open-source tool visualization viz-js

2026年7月3日星期五

AI 生态实验室 · 技术雷达：工作流程全景解读

本文系统梳理了「AI 生态实验室 · 技术雷达」的完整工作流程，从信息输入、项目筛选、研究落地到成果分享，形成一套可执行、可度量的常态化研究机制。

一、为什么需要一套固化流程

开源技术每天都在产生新变量。如果研究工作是"想到哪做到哪"，很容易陷入两个极端：要么因为信息过载而疲于奔命，要么因为缺乏目标感而长期停滞。我们需要的是一条从信息输入到技术落地的清晰链路，让每一天、每一周、每一个研究周期的产出都有明确的归属和节奏。

整个机制围绕三个核心问题展开：

节奏问题：每天、每周、每月到底该干什么？
方向问题：研究什么才能真正提升研发效率，而不是做无效功？
价值问题：研究成果怎么让团队看见、让业务用上？

下面这张图，就是我们对这三个问题的系统化回答。

二、全景架构：一张图看懂技术雷达

整个技术雷达的运转可以分为 三个层面 和 一条核心闭环。

三个层面

层面	角色	说明
信息输入层	外部信息源 + 内部需求	决定"看什么"
核心引擎层	AI 生态实验室 · 技术雷达	决定"怎么研"
成果输出层	项目 PPT + 技术期刊 + 镜像库 + Skill	决定"产出什么"

一条核心闭环

项目开展工作流程：趋势洞察 → 深度研究 → 构建项目 → 测试验证 → 内网部署 → 镜像库。

这条链路从"每天的信息扫描"开始，到&q

2026-07-03 21:42

workflow process radar open-source open-ai-eco

2026年6月27日星期六

链接

MinerU - 高精度文档解析引擎，为 LLM / RAG / Agent 提供结构化数据

MinerU 是 OpenDataLab 开源的一款高精度文档解析引擎，能把 PDF、DOCX、PPTX、XLSX、图片和网页转换成结构化的 Markdown 或 JSON，方便下游 LLM、RAG 和 Agent 工作流直接消费。

What｜是什么

MinerU 的定位是“为 LLM 准备数据”的文档解析基础设施。它支持多种输入格式，输出则强调人类阅读顺序和语义结构：

输入：PDF、图片、DOCX、PPTX、XLSX、网页
输出：Markdown、JSON（按阅读顺序）、多模态 Markdown，以及可可视化的中间格式
核心能力：自动去除页眉页脚页码、识别多栏与复杂版式、提取表格/图片/公式、公式转 LaTeX、表格转 HTML、OCR 识别 109 种语言
提供 CLI、FastAPI、Gradio WebUI、Docker 和 mineru-router 等多种使用形态

Why｜为什么值得关注

MinerU 诞生于 InternLM 预训练过程中的实际需求，最初是为了解决科技文献中的符号转换问题。相比直接购买商业文档解析服务，它的几个亮点很突出：

VLM + OCR 双引擎：pipeline 后端快且省资源，vlm-engine / hybrid-engine 后端精度更高，可按场景选择
全格式原生解析：3.0 以后陆续加入 DOCX、PPTX、XLSX 原生解析，避免先转 PDF 再解析带来的信息损失
许可更友好：从 AGPLv3 切换到基于 Apache 2.0 的 MinerU Open Source License，降低了商业部署门槛
数据说话：pipeline 后端在 OmniDocBench v1.6 上整体得分 86.47，hybrid 后端可达 95.39（high 模式）

2026-06-27 09:09

mineru opendatalab document-parsing pdf rag llm ocr vlm open-source python

2026年6月26日星期五

链接

Excalidraw - 开源手绘风格虚拟白板

Excalidraw 是一款广受欢迎的开源虚拟白板工具，主打“手绘风格”的图表绘制体验。它让用户在数字画布上画出看起来像随手涂鸦、却又结构清晰的示意图，既保留了手绘的自然感，又具备现代协作工具的便利。

其核心定位可以概括为以下几个方面：

1. 产品核心能力

手绘风格画布：无限画布 + 手绘质感线条，默认的“潦草”风格让技术图表少了些冰冷，多了些亲和力。
实时多人协作：支持多人同时编辑，并通过端到端加密保护协作数据。
本地优先：自动保存到浏览器本地，断网也能继续绘制；支持导出 .excalidraw JSON 文件。
丰富导出格式：可导出 PNG、SVG，或复制到剪贴板，也能生成只读分享链接。
完整绘图工具：矩形、圆形、菱形、箭头、自由绘制、文字、橡皮擦、素材库等一应俱全。

2. 技术栈与开源信息

主要基于 TypeScript 和 React 构建，代码质量高，社区活跃。
采用 MIT 许可证，完全免费开源。
在 GitHub 上已获得超过 126k Stars 和 14.2k Forks。
支持 PWA，可离线使用；也提供 Docker 部署方式。

3. 生态集成

Excalidraw 不只是独立的在线白板，它已经被集成到众多知名工具中：

Obsidian：通过插件在笔记中直接绘图。
VS Code：官方扩展让开发者在编辑器内画架构图。
Notion、Replit、CodeSandbox、Google Cloud：均被采用为内置或推荐绘图方案。
npm 包 @excalidraw/excalidraw：开发者可将白板能力嵌入自己的 React 应用。

2026-06-26 21:18

excalidraw whiteboard diagram drawing-tools open-source collaboration react typescript pwa

2026年6月21日星期日

链接

Simon Willison 的博客 - Django创始人、AI工程极客

Simon Willison's Weblog 是开源社区和 AI 工程领域极具影响力的个人技术博客。它的创办者 Simon Willison 是著名的 Python Web 框架 Django 的联合创始人之一，同时也是开源数据分析工具 Datasette 的作者。

该网站在当前的 AI 和软件工程生态中具有风向标式的地位，其核心内容和特点可以概括为以下几个方面：

1. 核心技术关注点

AI 辅助编程与 Agent 架构： 网站密集关注 LLM 在实际开发中的落地，近期频繁探讨 MCP（Model Context Protocol，模型上下文协议）、Claude Code、以及将安全与权限控制（如 Auth Gateway、沙箱隔离）剥离出 Agent 上下文窗口的工程实践。
本地大模型与端侧运行： 关注如 Qwen、GLM 等开源/开放权重模型的迭代，热衷于测试像 M2 Ultra 等本地硬件运行量化模型用于日常编码和工作流的实际表现。
数据开源与工具生态： 围绕他自己主导的 Datasette 项目（一个用于探索和发布数据的 Python 工具），分享各类扩展插件（如权限控制组件 datasette-acl、应用托管 datasette-apps 以及结合大模型的 datasette-agent）的开发思考和发布日志。

2. 独特的栏目结构

2026-06-21 22:56

blog simon-willison django datasette ai-agent mcp open-source developer-tools

2026年6月2日星期二

AGPL-3.0（GNU Affero 通用公共许可证 v3.0）

AGPL v3.0 许可证的开源豁免仅限于公司内部直签员工自用。由于公司混编了第三方外包人员，在法律主体上已被视作向外部第三方提供服务；一旦我们修改了该项目的核心代码，将直接触发强制开源机制，导致公司相关的商业源代码面临被迫向全社会彻底公开的重大合规风险。

AGPL-3.0

GNU AFFERO通用公共许可证第三版，2007年11月19日

序言

GNU Affero通用公共许可证是一份自由的、著佐权性质的许可证，适用于软件及其他类型的作品，它专门设计用于确保在网络服务器软件的情况下与社区合作。

大多数软件的许可证旨在剥夺您分享和修改软件的自由。相反，我们的通用公共许可证旨在保证您分享和修改程序所有版本的自由——确保它对所有用户来说都是自由软件。

当我们谈论自由软件时，我们指的是自由，而非价格。我们的通用公共许可证旨在确保您拥有分发自由软件副本的自由（如果您愿意，也可以对此服务收费），确保您能够收到源代码或在需要时获取它，确保您可以更改软件或在新的自由程序中使用其部分内容，并且确保您知道您可以做这些事情。

使用我们的通用公共许可证的开发者通过两个步骤来保护您的权利：(1) 声明软件的版权，以及 (2) 向您提供本许

2026-06-02 12:00

agpl-3.0 license open-source copyleft gnu compliance 开源许可证著佐权合规风险

2026年4月1日星期三

开源 AI 编码智能体 OpenCode 使用指南

OpenCode

OpenCode 是一个开源的 AI 编码智能体。它提供终端界面、桌面应用和 IDE 扩展等多种使用方式。

安装

官方文档

curl -fsSL https://opencode.ai/install | bash

                                 ▄
█▀▀█ █▀▀█ █▀▀█ █▀▀▄ █▀▀▀ █▀▀█ █▀▀█ █▀▀█
█░░█ █░░█ █▀▀▀ █░░█ █░░░ █░░█ █░░█ █▀▀▀
▀▀▀▀ █▀▀▀ ▀▀▀▀ ▀  ▀ ▀▀▀▀ ▀▀▀▀ ▀▀▀▀ ▀▀▀▀

OpenCode includes free models, to start:

cd <project>  # Open directory
opencode      # Run command

For more information visit https://opencode.ai/docs

配置

火山方舟 - OpenCode

2026-04-01 12:00

opencode ai-agent coding-agent open-source cli web-ide vscode acp mcp volcengine

2026年3月28日星期六

AI 技术研究及开源项目评估

开源项目

BitNet

BitNet 是微软开源的 1.58-bit 大模型推理框架，通过三值量化将模型压缩 10 倍，大幅降低推理成本。无法在现有昇腾 910B4 服务器上直接部署。因为 BitNet GPU 内核完全依赖 NVIDIA CUDA，与华为 CANN 架构不兼容，目前无任何官方或社区适配版本。

Page Agent

Page Agent 是阿里开源的纯前端 JavaScript GUI Agent 框架，通过一行脚本将 AI Agent 嵌入网页，用自然语言控制页面操作（点击、填表、导航等）。该项目可立即部署，接入研发网的大模型即可使用。

Next AI Drawio

Next AI Drawio 是一款 AI + draw.io 图表生成工具，通过自然语言生成、修改和增强图表（流程图、架构图、云拓扑图等）。该项目可立即部署，接入研发网的大模型即可使用。

agency-agents

agency-agents 是一套 AI Agent 角色提示词库，为 Claude Code、Cursor 等编程助手提供 140 多个专业角色配置（涵盖工程、设计、营销等 12 个领域）。只需要配置到编程助手中即可以使用了。

GitNexus

GitNexus 是一款零服务器的代码智能引擎，支持 Graph RAG 代码探索。

2026-03-28 20:00

ai-research open-source 技术评估 agent multi-agent agentic-workflow bitnet ui-tars-desktop gitnexus

2025年4月21日星期一

Sky-T1-32B-Preview: 在450美元内训练你自己的O1预览模型

Sky-T1: 在450美元内训练你自己的O1预览模型

我们推出了Sky-T1-32B-Preview，这是一个在流行的推理和编码基准测试上表现与o1-preview相当的推理模型。值得注意的是，Sky-T1-32B-Preview的训练成本不到450美元，这证明了以经济高效的方式复制高级推理能力是可能的。所有代码都是开源的。

概述

像o1和Gemini 2.0这样擅长推理的模型已经证明可以通过产生长链的思维过程等进步来解决复杂任务。然而，技术细节和模型权重无法获取，这对学术界和开源社区的参与造成了障碍。

为此，一些值得注意的努力已经出现，旨在训练开放权重的数学领域推理模型，如Still-2和Journey。同时，我们UC Berkeley的NovaSky团队一直在探索各种技术来发展基础模型和指令微调模型的推理能力。在这项工作中，我们在同一个模型中不仅在数学方面，而且在编码方面都取得了具有竞争力的推理表现。

完全开源：共同推动进步

为确保我们的工作能够惠及更广泛的社区，我们完全致力于开源协作。我们开源所有细节（即数据、代码、模型权重），使社区能够轻松地复制和改进我们的成果：

基础设施：在单个代码库中构建数据、训练和评估模型。
数据：用于训练Sky-T1-32B-Preview的17K数据。
技术细节：我们的技术报告和wandb日志。
模型权重：我们的32B模型权重。

2025-04-21 07:00

sky-t1 sky-t1-32b-preview post-training reasoning qwen2.5 llama-factory deepspeed distillation open-source 推理模型

2025年2月7日星期五

Open-source DeepResearch – Freeing our search agents

Open-source DeepResearch

TLDR

Yesterday, OpenAI released Deep Research, a system that browses the web to summarize content and answer questions based on the summary. The system is impressive and blew our minds when we tried it for the first time.

昨天，OpenAI 发布了 Deep Research，这是一个浏览网页以总结内容并根据总结回答问题的系统。当我们第一次尝试时，这个系统给我们留下了深刻的印象。

One of the main results in the blog post is a strong improvement of performances on the General AI Assistants benchmark (GAIA), a benchmark we’ve been playing with recently as well, where they successfully reached near 67% correct answers on 1-shot on average, and 47.

2025-02-07 10:00

deep-research hugging-face agent smolagents gaia code-agent open-source web-search

2024年9月23日星期一

Qwen2 Technical Report

Abstract(摘要)

This report introduces the Qwen2 series, the latest addition to our large language models and large multimodal models. We release a comprehensive suite of foundational and instruction-tuned language models, encompassing a parameter range from 0.5 to 72 billion, featuring dense models and a Mixture-of-Experts model. Qwen2 surpasses most prior open-weight models, including its predecessor Qwen1.

2024-09-23 08:00

qwen2 large-language-model moe transformer grouped-query-attention multilingual long-context benchmark open-source 大模型

2024年4月19日星期五

Meta Llama 3

Llama3

模型

Meta-Llama-3-8b: 8B 基础模型
Meta-Llama-3-8b-instruct: 8B 基础模型的指令调优版
Meta-Llama-3-70b: 70B 基础模型
Meta-Llama-3-70b-instruct: 70B 基础模型的指令调优版
Llama Guard 2: Llama Guard 2 是基于 Llama 3 8B 微调的，为生产环境设计的，能够对大语言模型的输入（即提示）和响应进行分类，以便识别潜在的不安全内容。

下载

数据集

HuggingFaceH4/no_robots

No Robots 是由熟练的人类注释者创建的包含 10,000 条指令和演示的高质量数据集。该数据可用于监督微调（SFT），使语言模型更好地遵循指令。 No Robots 是根据 OpenAI 的 InstructGPT 论文中描述的指令数据集进行建模的。

介绍 Llama 3 最大的变化是采用了新的 Tokenizer，将词汇表大

2024-04-19 08:00

llama-3 meta ollama llm langchain transformers hugging-face llamaguard responsible-ai open-source