厉害了我的国!刚刚DeepSeek又发布新模型!开源! wanmeishijie 2025年 10月 21日 03:07 6156 次阅读(6143 来自论坛) / 45 条评论 此博文来自论坛版块:军事天地(Military) 共 45 条评论 xiaoju 昨天 03:44 你思维方式还停留在上古时代 现在的LLM都是要先干到overfitting,然后继续训练才行 这个叫做Grokking longtian 写了: 昨天 02:22 token数量减少,容易overfitting 评论 longtian 昨天 02:22 token数量减少,容易overfitting xiaoju 写了: 昨天 00:55 实际上LLM的token计算才是最大瓶颈,减少了token数就等于提高了算力 另外LLM对于长context有严重问题,减少token数也会提高模型潜力 评论 xiaoju 昨天 00:55 实际上LLM的token计算才是最大瓶颈,减少了token数就等于提高了算力 另外LLM对于长context有严重问题,减少token数也会提高模型潜力 longtian 写了: 昨天 00:50 图片tokenize这维度太高了,需要算力指数增长才够用吧 评论 longtian 昨天 00:50 图片tokenize这维度太高了,需要算力指数增长才够用吧 wanmeishijie 写了: 2025年 10月 21日 04:12 直观上文本必须tokenize再向量化。这个空间维度不低。 而图片如果是16色很有限 评论 wyr 2025年 10月 21日 22:51 这样看起来中文这样的象形文字比拼写文字有天然优势,拼写文字的上下文关联需要的矩阵比象形文字需要的矩阵要大很多 评论 YG196T 2025年 10月 21日 21:20 sgisp2 写了: 2025年 10月 21日 04:33 兔子家缺算力,所以能搞出无穷的优质高效算法,又把老米甩得远远滴 这就像以前的理工科教授,那时没有计算机,所以数理功底深。现在的都只会用matlab 评论 tootsie 2025年 10月 21日 21:03 中文 vs 英文。 LOL 评论 windy 2025年 10月 21日 19:55 其实从LLM来说,即使是几百个Billion的参数,和用来训练的数据里面包含的信息量相比,其实是非常小了。 评论 windy 2025年 10月 21日 19:46 你要懂点信息论就不会觉得反直觉了。 4n4ly 写了: 2025年 10月 21日 18:15 还真是有点反直觉,一张报纸的图片,按这个模型压缩后的大小比图片ocr转成文字的大小还小很多, 理解的对不对? 评论 xiaoju 2025年 10月 21日 18:27 我举个例子说明一下: 现在的LLM的输入,是单词的词典编号 而deepseek-ocr的输入,是单词的图形 对于人类来说,记住图形更容易和省力,deepseek发现对于电脑也是一样 4n4ly 写了: 2025年 10月 21日 18:15 还真是有点反直觉,一张报纸的图片,按这个模型压缩后的大小比图片ocr转成文字的大小还小很多, 理解的对不对? 评论 xiaoju 2025年 10月 21日 18:25 你个傻逼甚至不懂让AI给你纠正一下 windy 写了: 2025年 10月 21日 18:13 狗子屁都不懂,坐在井里觉得井好大 评论 4n4ly 2025年 10月 21日 18:15 还真是有点反直觉,一张报纸的图片,按这个模型压缩后的大小比图片ocr转成文字的大小还小很多, 理解的对不对? 评论 windy 2025年 10月 21日 18:13 狗子屁都不懂,坐在井里觉得井好大 xiaoju 写了: 2025年 10月 21日 18:06 尼玛,“tokenizer本质上是prompt engineering的一部分” 狗子急的脱粪了 评论 coltzhao 2025年 10月 21日 18:09 jb 写了: 2025年 10月 21日 09:14 DeepSeek-OCR准确率97%还是太低。 人类就是大概98% 评论 xiaoju 2025年 10月 21日 18:07 你胡扯之前先上AI过一遍不行么? FGH 写了: 2025年 10月 21日 09:38 DS以前一直被诟病缺乏多模态能力。这次算是补上了短板。是不是弯道超车了?再等等看。 评论 查看全部评论 评论 登录用户才可以发表评论!
你思维方式还停留在上古时代
现在的LLM都是要先干到overfitting,然后继续训练才行
这个叫做Grokking
token数量减少,容易overfitting
实际上LLM的token计算才是最大瓶颈,减少了token数就等于提高了算力
另外LLM对于长context有严重问题,减少token数也会提高模型潜力
图片tokenize这维度太高了,需要算力指数增长才够用吧
这样看起来中文这样的象形文字比拼写文字有天然优势,拼写文字的上下文关联需要的矩阵比象形文字需要的矩阵要大很多
这就像以前的理工科教授,那时没有计算机,所以数理功底深。现在的都只会用matlab
中文 vs 英文。 LOL
其实从LLM来说,即使是几百个Billion的参数,和用来训练的数据里面包含的信息量相比,其实是非常小了。
你要懂点信息论就不会觉得反直觉了。
我举个例子说明一下:
现在的LLM的输入,是单词的词典编号
而deepseek-ocr的输入,是单词的图形
对于人类来说,记住图形更容易和省力,deepseek发现对于电脑也是一样
你个傻逼甚至不懂让AI给你纠正一下
还真是有点反直觉,一张报纸的图片,按这个模型压缩后的大小比图片ocr转成文字的大小还小很多, 理解的对不对?
狗子屁都不懂,坐在井里觉得井好大
人类就是大概98%
你胡扯之前先上AI过一遍不行么?