V2EX › conhost 的所有回复 › 第 2 页 / 共 3 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3

❮

❯

2022-09-14 14:35:42 +08:00

回复了 kerrspace 创建的主题 › 程序员 › 深度学习显卡选择（RTX A6000 和 RTX 3090）

@kerrspace 这个看你的需求了。如果要搞目前的大模型的话，当然首推更大内存的。但是虽然 3090 的计算速度不如 a6000 ，但是 a6000 也到不了 3090 的两倍，如果 24G 内存够的话，想要更快的话，还是推荐 3090 。此外，两张卡的话，你还可以一张用来调试，一张用来实验。colab 的话，就不用考虑了，pro 都只能分到 p100 ，pro+也只能分配到原来免费的 v100 。

2022-08-05 10:00:32 +08:00

回复了 zxCoder 创建的主题 › 分享发现 › 感觉科研水论文就像鬼畜视频创作一样

恭喜你发现了科研界的流量密码

2022-07-19 14:54:19 +08:00

回复了 particlec 创建的主题 › 问与答 › 为啥夏天一上班写一会代码一会就困，会发一会呆在写，周末就不困，一点都不困

春困秋乏夏打盹，睡不醒的冬三月

2022-06-25 01:36:54 +08:00

回复了 Richard14 创建的主题 › Python › 在 Pytorch 学习的过程中如何借助预训练模型帮助理解结构？

@Richard14 改变的-1 维度是因为 lstm 是针对词进行处理的。至于三维向量的理解，你可以理解为第一位是是有多少条句子，然后每一条句子中有 20 个词，每个词的维度是 8 。

2022-06-24 20:51:05 +08:00

回复了 Richard14 创建的主题 › Python › 在 Pytorch 学习的过程中如何借助预训练模型帮助理解结构？

@conhost 如果你不理解长度的话，你可以使用 nn.LSTMCell(8,64)，然后自己定义循环生成，结果也是一样的。

2022-06-24 20:44:30 +08:00

回复了 Richard14 创建的主题 › Python › 在 Pytorch 学习的过程中如何借助预训练模型帮助理解结构？

@Richard14 我不太理解的是你为什么会将 2 ，3 两个维度互换呢，20 是序列长度，也就是说一个序列单元要走 20 步到达结尾，如果你设置的 bacth_first=False 的话，你需要将 1 ，2 两个维度互换。总得来说，LSTM 是对每一个词进行处理。nn.LSTM(20,64)的意思是输入到 LSTM 的维度是 20 ，LSTM 的输出维度为 64 ，这里你设置应该是不对的。要么你把[32, 20, 8]经过一个线形变换，转换成[32, 20, 20]，要么你设置 nn.LSTM(8 ，64)。

2022-06-23 23:54:18 +08:00

回复了 Richard14 创建的主题 › Python › 在 Pytorch 学习的过程中如何借助预训练模型帮助理解结构？

@Richard14 总体来说循环网络的结构确实比较抽象，在实际理解的时候内部递归结构需要展开来看，不能将其单单就理解为一个层。包括训练时候的梯度回传，也要按照 rnn 的时间步进行展开回传的。而 cnn 由于其参数共享的原因，各个窗口之间是完全并行的，因此你理解一个窗口的操作，就可以直接扩展到其他窗口。

2022-06-23 23:48:55 +08:00

回复了 Richard14 创建的主题 › Python › 在 Pytorch 学习的过程中如何借助预训练模型帮助理解结构？

具体需要看你做什么了，lstm 后面加一个 dense 已经是一个完整的网络结构了。其递归的结构可以提取到全部的输入信息。在文本方面的话，cnn 确实需要堆叠多层，这是因为 cnn 是提取的局部信息，想要获取到全部信息，只能通过堆叠间接扩大卷积核的大小，从而能覆盖到全部输入。

2022-06-23 23:29:56 +08:00

回复了 Richard14 创建的主题 › Python › 在 Pytorch 学习的过程中如何借助预训练模型帮助理解结构？

@Richard14 RNN ，CNN 等基础模型 torch 都使用 C++在内部实现了，不过你也可以使用 pytorch 自己按照公式实现，实现方式类似于你自己定义一个 nn.Module 。实际生产中要看具体任务是什么样的，根据资源跟延时的限制决定一层还是多层。Transformer 出来之后基本上 RNN 很少单独使用了，有一些做序列标注的会在 BERT 上面加一层 biRNN ，用来提取文本的前后依赖信息。目前一般来说，RNN 在 Transformer 上的使用都是来补充位置向量太弱的问题的。不过，在小样本上，RNN 的效果会好于 Transformer ，所以具体用什么还是要看使用场景。

2022-06-23 23:11:10 +08:00

回复了 Richard14 创建的主题 › Python › 在 Pytorch 学习的过程中如何借助预训练模型帮助理解结构？

torch vision 里面是设置好的模型，打印的是模型的结构，并不是具体到某一层是怎么搭建的。而 LSTM 是一个层，作用类似于 ResNet 中的 Conv2d 。而 ResNet 是一个网络，由多个层构成。现在你打印的是 LSTM 里面的参数名和参数的维度，不是模型结构。如果你是做 NLP 的话，可以使用 hugging face 的 transformers 库，里面是近几年 NLP 上预训练模型。

2022-06-06 18:06:35 +08:00

回复了 missqso 创建的主题 › 问与答 › [付费求] 有没有什么软件，装在 a 电脑上，然后在一个局域网（zerotier）的情况下，我对它的 ip 发指令，让它强制关机？

@missqso #2 破坏计算机信息系统罪了解一下。既然客户都不懂 IT 技术了，那就在代码里面加在线验证或者 license 的方式解决呗。不付款的话取消接入验证或者吊销 license

2022-06-06 17:46:20 +08:00

你这不就是想要个木马么？真的很刑

2022-04-02 13:30:38 +08:00

回复了 stille 创建的主题 › MacBook Pro › 14 寸 MacBook Pro 独占 bug 是放弃了还是硬件问题,在次吐槽!

@FakerLeung 这个复制失败的 bug 不是都快十年了么，你才发现？

2021-12-10 09:44:05 +08:00

回复了 eviladan0s 创建的主题 › Java › 颤抖吧 Javaer， log4j 史诗级漏洞

@pigspy logback 依赖 log4j 哦

2021-11-30 09:53:03 +08:00

回复了 dax1 创建的主题 › 程序员 › 万能 V 友关于硕士论文物联网方向选题

又有物联网，又有信息安全，那就差分隐私计算呗

2021-11-22 10:03:11 +08:00

回复了 aladdinding 创建的主题 › Python › 为啥好多面试 Python 的连魔法函数都不知道？

@shm7 不知道你是具体做 NLP 哪个方面的，情感分析？对话系统？文本摘要？序列标注？亦或者文本生成，机器翻译？即使你调用现成的 transformers 包，你也要写 dataloader 吧，只要继承这个类，那你的__next__方法指定要重新实现，只不过没有探寻这类函数的名称定义而已，何必戾气这么重呢？

1 2 3

❮

❯