厉害了我的国!刚刚DeepSeek又发布新模型!开源!

wanmeishijie

此博文来自论坛版块:军事天地(Military)

共 45 条评论

  1. xiaoju
    xiaoju

    你思维方式还停留在上古时代

    现在的LLM都是要先干到overfitting,然后继续训练才行

    这个叫做Grokking

    longtian 写了: 昨天 02:22

    token数量减少,容易overfitting

  2. longtian
    longtian

    token数量减少,容易overfitting

    xiaoju 写了: 昨天 00:55

    实际上LLM的token计算才是最大瓶颈,减少了token数就等于提高了算力

    另外LLM对于长context有严重问题,减少token数也会提高模型潜力

  3. xiaoju
    xiaoju

    实际上LLM的token计算才是最大瓶颈,减少了token数就等于提高了算力

    另外LLM对于长context有严重问题,减少token数也会提高模型潜力

    longtian 写了: 昨天 00:50

    图片tokenize这维度太高了,需要算力指数增长才够用吧

  4. longtian
    longtian

    图片tokenize这维度太高了,需要算力指数增长才够用吧

    wanmeishijie 写了: 2025年 10月 21日 04:12

    直观上文本必须tokenize再向量化。这个空间维度不低。
    而图片如果是16色很有限

  5. wyr
    wyr

    这样看起来中文这样的象形文字比拼写文字有天然优势,拼写文字的上下文关联需要的矩阵比象形文字需要的矩阵要大很多

  6. YG196T
    YG196T

    sgisp2 写了: 2025年 10月 21日 04:33

    兔子家缺算力,所以能搞出无穷的优质高效算法,又把老米甩得远远滴

    这就像以前的理工科教授,那时没有计算机,所以数理功底深。现在的都只会用matlab

  7. tootsie
    tootsie

    中文 vs 英文。 LOL

  8. windy
    windy

    其实从LLM来说,即使是几百个Billion的参数,和用来训练的数据里面包含的信息量相比,其实是非常小了。

  9. windy
    windy

    你要懂点信息论就不会觉得反直觉了。

    4n4ly 写了: 2025年 10月 21日 18:15

    还真是有点反直觉,一张报纸的图片,按这个模型压缩后的大小比图片ocr转成文字的大小还小很多, 理解的对不对?

  10. xiaoju
    xiaoju

    我举个例子说明一下:

    现在的LLM的输入,是单词的词典编号
    而deepseek-ocr的输入,是单词的图形

    对于人类来说,记住图形更容易和省力,deepseek发现对于电脑也是一样

    4n4ly 写了: 2025年 10月 21日 18:15

    还真是有点反直觉,一张报纸的图片,按这个模型压缩后的大小比图片ocr转成文字的大小还小很多, 理解的对不对?

  11. xiaoju
    xiaoju

    你个傻逼甚至不懂让AI给你纠正一下

    windy 写了: 2025年 10月 21日 18:13

    狗子屁都不懂,坐在井里觉得井好大

  12. 4n4ly
    4n4ly

    还真是有点反直觉,一张报纸的图片,按这个模型压缩后的大小比图片ocr转成文字的大小还小很多, 理解的对不对?

  13. windy
    windy

    狗子屁都不懂,坐在井里觉得井好大

    xiaoju 写了: 2025年 10月 21日 18:06

    尼玛,“tokenizer本质上是prompt engineering的一部分”

    狗子急的脱粪了

  14. coltzhao
    coltzhao

    jb 写了: 2025年 10月 21日 09:14

    DeepSeek-OCR准确率97%还是太低。

    人类就是大概98%

  15. xiaoju
    xiaoju

    你胡扯之前先上AI过一遍不行么?

    FGH 写了: 2025年 10月 21日 09:38

    DS以前一直被诟病缺乏多模态能力。这次算是补上了短板。是不是弯道超车了?再等等看。

  16. 查看全部评论

评论

© 2024newmitbbs.com

Theme by Anders NorenUp ↑