Stable Diffusion là mô hình trí tuệ nhân tạo (AI) tạo ra hình ảnh. Nó hoạt động tương tự như các mô hình AI tổng hợp khác như ChatGPT. Khi được cung cấp lời nhắc bằng văn bản, Stable Diffusion sẽ tạo hình ảnh dựa trên dữ liệu huấn luyện của nó.
1. Stable Diffusion là gì?
Stable Diffusion là một chương trình máy tính tạo ra hình ảnh khi được cung cấp lời nhắc bằng văn bản.
Ví dụ: khi bạn nhập thông tin “quả táo” thì nó sẽ tạo ra hình ảnh quả táo. Nó cũng có thể cần những lời nhắc phức tạp hơn như tạo hình ảnh quả táo theo một phong cách nghệ thuật cụ thể.
Ngoài việc tạo ra hình ảnh, nó có thể thay thế các phần của hình ảnh hiện có và mở rộng hình ảnh để làm cho chúng lớn hơn.
Việc thêm hoặc thay thế các thành phần trong một hình ảnh được gọi là inpainting và việc mở rộng hình ảnh để làm cho nó lớn hơn được gọi là outpainting. Các quy trình này có thể thay đổi bất kỳ hình ảnh nào, cho dù hình ảnh gốc có được tạo bằng AI hay không.
Mô hình Stable Diffusion là nguồn mở nên bất kỳ ai cũng có thể sử dụng nó.
Stable Diffusion để làm gì?
Stable Diffusion được sử dụng để tạo hình ảnh dựa trên lời nhắc văn bản và thay đổi hình ảnh hiện có bằng cách sử dụng các quy trình inpainting và outpainting.
Ví dụ: nó có thể tạo toàn bộ hình ảnh dựa trên mô tả văn bản sống động hoặc có thể thay thế một phần nhỏ của hình ảnh hiện có.
2. Stable Diffusion hoạt động như thế nào?
Stable Diffusion hoạt động bằng cách lặp đi lặp lại áp dụng quy trình gói là khuếch tán vào hình ảnh. Ở mỗi lần lặp, thuật toán tính toán hệ số khuếch tán dựa trên các đặc điểm hình ảnh cục bộ, chẳng hạn như độ dốc và cạnh.
Hệ số này xác định cường độ và hướng khuếch tán, cho phép thuật toán điều chỉnh hiệu ứng làm mịn một cách thích ứng trên các vùng khác nhau của hình ảnh.
Quá trình khuếch tán hoạt động bằng cách phân phối lại các giá trị pixel dựa trên thông tin cục bộ.
Thuật toán giảm nhiễu bằng cách khuếch tán các giá trị pixel ở các vùng mượt mà trong khi vẫn giữ được các phần chuyển tiếp và cạnh sắc nét.
Việc làm mịn có chọn lọc này giúp duy trì chi tiết hình ảnh và tránh làm mờ hoặc mất các tính năng quan trọng.
Dưới đây là tổng quan về quá trình này.
- Giải thích văn bản: Sau khi người dùng nhập mô tả bằng ngôn ngữ tự nhiên, Stable Diffusion sẽ bắt đầu bằng cách diễn giải và hiểu yêu cầu.
Sử dụng trí tuệ nhân tạo, văn bản được phân tích và thông tin thích hợp được trích xuất để tạo ra hình ảnh mong muốn.
- Mô hình khuếch tán: Stable Diffusion sử dụng mô hình khuếch tán được huấn luyện để loại bỏ nhiễu Gaussian khỏi hình ảnh mờ.
Mô hình phát sóng được thiết kế đặc biệt để tạo ra hình ảnh từ đầu, bắt đầu bằng hình ảnh ban đầu bị nhiễu và mờ.
Thông qua quá trình sàng lọc lặp đi lặp lại, mô hình sẽ nâng cao dần dần hình ảnh cho đến khi đạt được kết quả sắc nét và rõ ràng, phù hợp với kết quả đầu ra mong muốn của người dùng.
- Học tập liên tục: Với sự tương tác ngày càng tăng của người dùng và việc gửi các mô tả văn bản tới Stable Diffusion, hệ thống trí tuệ nhân tạo liên tục học hỏi và nâng cao kết quả đầu ra của nó theo thời gian.
Quá trình học tập liên tục này cho phép Khuếch tán ổn định tạo ra hình ảnh ngày càng chính xác và sống động như thật.
- Tạo hình ảnh: Sau khi hiểu văn bản và triển khai mô hình khuếch tán, Stable Diffusion tạo ra hình ảnh bằng cách sử dụng thông tin nhất định và kiến thức thu được từ quá trình đào tạo của nó.
Trong một số trường hợp nhất định, trí tuệ nhân tạo có khả năng tạo ra nhiều hình ảnh thể hiện những cách hiểu hoặc cách diễn giải khác nhau về mô tả được cung cấp.
- Chỉnh sửa hình ảnh hiện có: Ngoài việc tạo hình ảnh từ đầu, Stable Diffusion còn có khả năng sửa đổi hình ảnh có sẵn dựa trên chỉ thị của người dùng.
Điều này đòi hỏi các tác vụ như thêm hoặc xóa đối tượng, thay đổi màu sắc hoặc điều chỉnh các thành phần khác trong ảnh.
3. Cách sử dụng Stable Diffusion AI để tạo hình ảnh online
Bước 1: Truy cập vào website của phần mềm AI theo đường link sau: Stable Diffusion Online.
Bước 2: Các bạn sẽ thấy trên website hiển thị thông tin về nền tảng và hoạt động của nó. Tuy nhiên, chúng có thể cung cấp cho bạn một tùy chọn để người dùng sử dụng bản MIỄN PHÍ.
Bước 3: Sau khi lựa chọn sử dụng phiên bản miễn phí, chúng sẽ chuyển hướng xuống sâu hơn trên website. Bạn sẽ nhìn thấy một hộp để chèn văn bản (lệnh). Bên cạnh đó, một ô trống khác sẽ hiển thị cho bạn hình ảnh được tạo ra.
Thông qua những bước trên, các bạn có thể sử dụng Sable Diffusion để tạo hình ảnh một cách nhanh chóng. Tuy nhiên, hãy lựa chọn đoạn văn bản rõ ràng, mạch lạc để tránh mất nhiều thời gian nhé!
4. AI có thể tạo ra hình ảnh như thế nào?
AI có thể tạo ra hình ảnh theo nhiều cách khác nhau, nhưng Stable Diffusion sử dụng thứ được gọi là mô hình khuếch tán tiềm ẩn (LDM).
Nó bắt đầu bằng tiếng ồn ngẫu nhiên giống như tiếng tĩnh của tivi analog. Từ trạng thái tĩnh ban đầu đó, nó sẽ trải qua nhiều bước để loại bỏ nhiễu khỏi hình ảnh cho đến khi khớp với lời nhắc văn bản.
Điều này có thể thực hiện được vì mô hình đã được đào tạo bằng cách thêm nhiễu vào các hình ảnh hiện có, vì vậy về cơ bản nó chỉ đảo ngược quá trình đó.
Stable Diffusion đã được đào tạo trên nhiều hình ảnh từ internet, chủ yếu từ các website như Pinterest, DeviantArt và Flickr.
Mỗi hình ảnh đều có chú thích bằng văn bản, đó là cách người mẫu biết những thứ khác nhau trông như thế nào, có thể tái tạo nhiều phong cách nghệ thuật khác nhau và có thể nhận lời nhắc văn bản và biến nó thành hình ảnh.
Mô hình cũng có thể được tinh chỉnh bằng cách sử dụng các bộ hình ảnh khác để tạo ra các kết quả khác nhau.
5. Bạn có thể biết khi nào một hình ảnh được tạo ra bởi AI không?
Stable Diffusion có thể tạo ra hình ảnh chân thực khó phân biệt với vật thật và hình ảnh khó phân biệt với tác phẩm nghệ thuật vẽ tay hoặc tự vẽ. Nó cũng có thể tạo ra những hình ảnh giả mạo rõ ràng tùy thuộc vào lời nhắc và các yếu tố khác.
Một cách để phát hiện tác phẩm nghệ thuật do AI tạo ra là nhìn vào bàn tay, vì Stable Diffusion và các mô hình khác gặp rất nhiều khó khăn trong lĩnh vực đó. Nếu chủ thể của hình ảnh che giấu bàn tay của họ một cách dễ thấy, thì đó là mẹo mà ai đó đã sử dụng một số kỹ thuật nhắc nhở thông minh để khắc phục những thiếu sót của mô hình AI.
Tuy nhiên, hãy nhớ rằng các mô hình AI đang thay đổi cực kỳ nhanh chóng, vì vậy những thiếu sót này có thể sẽ chỉ tồn tại trong thời gian ngắn.
6. Những tranh cãi và vấn đề với Stable Diffusion
Về mặt lý thuyết, hình ảnh được tạo ra bởi Stable Diffusion có thể được sử dụng cho bất kỳ mục đích nào, nhưng có một số cạm bẫy liên quan đến nội dung do AI tạo ra.
Bởi vì việc tạo hình ảnh AI phải tìm hiểu về các đối tượng từ đâu đó, nên các lập trình viên của nó đã tìm kiếm tác phẩm nghệ thuật trên Internet bằng siêu dữ liệu. Họ làm như vậy mà không có sự cho phép của người tạo ra tác phẩm nguồn, điều này làm nảy sinh các vấn đề về bản quyền.
Vấn đề này đặc biệt khó giải quyết vì Stable Diffusion không tạo hình ảnh từ đầu; nó ghép chúng lại với nhau từ những cái nó đã nghiên cứu. Vậy là vừa học vừa sáng tạo, nó đều sử dụng tác phẩm của nghệ sĩ khác dù họ có cấp phép hay không.
Các website như DeviantArt chỉ tránh được tình trạng thoát hàng loạt bằng cách cho phép người dùng chọn không cho phép hệ thống AI sử dụng tác phẩm nghệ thuật của họ để đào tạo.
Chủ đề về bản quyền của các tác phẩm được tạo ra một phần bởi AI cũng rất mờ ám, vì đơn đăng ký bản quyền cho các tác phẩm có các yếu tố do AI tạo ra đã bị từ chối.
Mặc dù vậy, khi việc tạo hình ảnh do AI điều khiển trở nên phổ biến hơn, nó đe dọa sinh kế của các nghệ sĩ truyền thống, những người có nguy cơ mất việc vì phương pháp rẻ hơn, “dễ dàng hơn” này.
7. Câu hỏi thường gặp
- AI Art là gì?
“AI art” là thuật ngữ chung cho các nền tảng như Stable Diffusion, Midjourney, DALL-E và các trình tạo hình ảnh bằng ngôn ngữ tự nhiên khác. Mỗi phiên bản có thể sử dụng các cách khác nhau để đào tạo và tạo hình ảnh, nhưng tất cả đều thuộc mô tả “AI art”.
- Tại sao nghệ thuật AI không thể làm được tay?
AI art gặp rắc rối với cả việc vẽ tay và răng. Lý do là bởi vì trong khi các trình tạo có thể “biết” nói chung những bộ phận cơ thể này là gì, họ lại không hiểu số lượng ngón tay hoặc số răng điển hình mà con người có.