南瓜AI

登录 注册

ai一键生成我的世界建筑,地图作者再也不用肝了

今天我就来聊聊我最近开源的逆天项目:Mine Builder 2.0。(地址:https://github.com/nianxi666/mine-builder2.0)。用一句话概括:输入你的脑洞描述,AI帮你把你输入的文字生成能直接导入到mc的Schematic文件。整个过程端到端自动化,飞速搞定,生成的建筑不光结构稳,材质还贴合主题,玩起来跟亲手搭的一样自然。别急,这不是科幻——它已经能生出从树屋到摩天大楼的各种玩意儿,下面我细聊聊我的心路历程和这个项目的黑科技。

Mine Builder 2.0 Demo Interface

(上图是我2.0版的交互界面,简单直观:右下角输入提示词,中间实时预览3D模型,右边还能手动编辑。看到没?这可是我亲手调的UI,力求让新手一上手就爱上。)

从1.0起步:我一个人在手机上折腾半年的黑历史

先简单带过我的前传吧。Mine Builder的1.0版(https://github.com/nianxi666/mine-builder),是我用半年时间,在手机上硬啃出来的。想象一下:初中时自学py,电脑坏了,只能靠Termux和Colab在手机上敲代码。想训练个专属Minecraft模型,结果数据集、形状不匹配、显存不够……各种坑我踩了个遍。最终,我绕了个弯,用现成文本到3D模型(如HunYuan-3D)转体素,再映射到Minecraft方块。1.0的核心就是全流程自动化:文本描述→AI生成3D→体素化→Schematic输出。白嫖党福音,我还教大家用启智社区免费云GPU跑,生成的船啊房子啊,一键导入WorldEdit模组,就能贴图进游戏。

那时候的Demo已经够惊艳了,比如输入“a ship”,AI吐出个像素风帆船,我在YouTube视频里演示得淋漓尽致。但1.0也有短板:分辨率低、材质可能映射错、没实时预览。我没停步,迭代到2.0,升级了核心引擎,融入了更牛的模型和交互。简单说,1.0是“我能用”,2.0是“我逆天了”。

Mine Builder 2.0不是简单补丁,我重构了整个pipeline,让生成过程像搭乐高一样顺滑。核心是多模态AI协作:文本我懂、图像我会、3D我稳、材质我准。我来一步步拆解,。

第一步:文本变图像,Nano Banana的极速出图

一切从你的描述开始——当然,也是从我的灵感开始。输入“a majestic fantasy castle with multiple towers, symmetrical architecture”(宏伟的幻想城堡,多塔、对称设计),别担心英文提示——项目支持中英混用,AI自带翻译。2.0里我用了Nano Banana模型,瞬间生成一张建筑图,这图不是随便画的:它会自动去背景、前景居中、尺寸归一,确保后续3D转换不歪。

第二步:图像变3D,分层生成,结构稳如老狗

图像到手,接下来是我最骄傲的重头戏:转3D网格。2.0用Flow + VAE模型(8192维潜在空间),基于双体积打包策略,把2D图像“抬升”成GLB多部件3D模型。啥叫双体积打包?简单说,它像打包行李一样,把复杂结构拆分成独立部件(比如城堡的墙、塔、门),每个部件用DINOv2 ViT-g/14编码器捕捉语义,确保不塌方。

耗时8.3秒,分辨率高达512x512x512。部件识别准确率96.7%,生成的模型不光立体,还懂“对称”“多层”。1.0时代,3D转体素容易丢细节;现在呢?我支持32×32×32体素输出,平均占用率43.2%,文件压缩到8.4KB,轻如鸿毛。每次生成完,我都忍不住在Three.js里转一圈,检查有没有毛病。

Modern Building Demo

(上图是我用“minimalist glass structure”生成的现代建筑,几何线条干净,玻璃幕墙反射感强,转3D后稳稳的。这玩意儿我自己都想导入游戏建个未来城市。)

第三步:AI材质分配,Gemini的智能调色板

光有骨架不够,得上色!2.0里我用Gemini 2.5 Flash(谷歌的多模态大模型)做材质推理,两阶段搞定:先全局抓风格(石质中世纪?还是玻璃现代?),再部件级分配Minecraft方块。支持150+原版1.12方块:石块、木板、羊毛(16色)、楼梯、栅栏……三层验证确保材质合法(格式对、方块存在、纹理可用)。

Tree House Demo

(上图是我用“organic forest dwelling”生成的树屋,曲线柔和,材质自然融入环境。藤蔓缠绕的部分,是Gemini根据prompt自动推的,我加了层验证避免它乱来。)

第四步:实时预览+导出,Three.js的交互乐园

生成完,别急着关——2.0内置Three.js Web查看器,我亲手集成,实时渲染多视角(等轴测、透视)。你能手动选部件改材质、删体素、甚至在体素网格上涂鸦。相机支持轨道漫游、缩放、重置,UI按钮一键搞定。还加了保存/加载系统:localStorage存状态,ZIP导出全会话(包括聊天历史),下次直接续建。

最后,NBT编码器0.4秒转Schematic(GZIP压缩),坐标映射精准。导入Minecraft?放进config/worldedit/schematics/文件夹,游戏里//schematic load 文件名.schematic,然后//paste一键放置。完美!结构合理性评分4.6/5(我自己盲测的)。

怎么玩?直接在网页上在线demo

技术底子扎实,出自我的一篇论文(https://pumpkinai.space/article/mine-builder-ai-generate-minecraft-buildings),详解pipeline和实验。结果亮眼:视觉吸引力4.3/5,整体可用4.4/5。未来路线:v2.1批处理、风格迁移;