![]()
结合者:智动智|王涵编辑|摸影智动智讯 10 月 14 日消息,昨晚,前特斯拉人工智能和自动驾驶视觉总监、OpenAi 研究员 Andrej Karpathy 开源了 Nanochat,声称可以用不到 100 美元(约合人民币 711.5 元)训练一个“简单版 ChatGPT”。当它在 GitHub 上发布时,获得了 5,600 颗星。 ▲ Nanochat GitHub主页(来源:GitHub)开放地址资源:Github:https://github.com/karathhy/Nanochat与早期仅通过预训练覆盖的nanogpt不同。 Nanochat 是一个从一开始就开发的极简、全栈训练/识别流程,使用最精简的依赖代码库来实现“Chatgpt 的简化版”。 ▲ Andrej Karpathy 推文截图(来源:他还表示,作为微调(SFT)阶段,整个训练需要 3 小时 51 分钟,总成本为 92.4 美元(约合人民币 657.4 元)。“(RL)目前尚未完成但卡帕西表示,他并没有将其纳入总运行时间中。主要指标中的GPT-2评估了模型的推理能力、知识库等基础能力深度30个24小时(相当于GPT-3计算量125m,近千个GPT-3),在Benchmark MMLU中取得40多分,在简单推理arc-easy工作中取得70多分,在Mathematica Reasoning Benchmark GSM8K中取得20分以上的成绩 8304 行代码强制执行以下功能: 1. 使用新的 Rust 实现来训练分词器; smoltalk 用户辅助的对话、许多问题的问题和中期培训的工具使用数据; 4. 制定调优指令,以基准测试评估聊天模型,作为许多选择(ARC-E/C、MMLU)、数学(GSM8K)和代码(Humaneval)的通用定义; 5.可选使用“Grpo”算法对GSM8K数据集进行强化研究;6.大识别ion是通过带有KV缓存的引擎实现的,支持简单的预填充/解码和工具调用(轻量级沙箱中的python interfeter),并且可以通过cli或类似chatgpt的Web界面进行联系; 7.以游戏化的方式总结整个过程,AI技术应用到更广泛场景的可能性