- Insight Salon
- Posts
- [๐ง In Case You Missed It]Reddit x OpenAI: When Community Language Becomes Training Data
[๐ง In Case You Missed It]Reddit x OpenAI: When Community Language Becomes Training Data
The internetโs messiest forum just got monetized.

๋ ๋ง, AI์ ๋จน์๊ฐ์ด ๋๋ค
๊ฐ์ฅ ์์ ๋ก์ด ์ปค๋ฎค๋ํฐ ์ธ์ด๊ฐ ์ด์ ํ๋ จ์ฉ ๋ฐ์ดํฐ๋ก.
๐ Context is King
Reddit and OpenAI signed a partnership in April 2024.
The deal gives OpenAI access to Redditโs Data API, allowing ChatGPT to include โreal-time, structured, and unique content from Reddit.โ
In return, Reddit integrates OpenAI tools into its platform.
๋ ๋ง๊ณผ ์คํAI๋ 2024๋
4์, ์ ๋ต์ ํํธ๋์ญ์ ์ฒด๊ฒฐํ๋ค.
์ด๋ฒ ๊ณ์ฝ์ ํตํด ์คํAI๋ ๋ ๋ง์ ๋ฐ์ดํฐ API๋ฅผ ํ์ฉํ ์ ์๊ฒ ๋์๊ณ ,
ChatGPT๋ ์ด์ ๋ ๋ง์ โ์ค์๊ฐ, ๊ตฌ์กฐํ๋, ๋
์ฐฝ์ ์ธ ์ฝํ
์ธ โ์ ์ ๊ทผํ ์ ์๋ค.
๋์ ๋ ๋ง์ ์์ฌ ํ๋ซํผ ๋ด์ ์คํAI์ ํด์ ํตํฉํ๋ค.
Reddit? API?
Reddit is a massive online forum of over 100,000 communities called subreddits.
Itโs one of the few places where informal, niche, and memetic internet language thrives.
An API (Application Programming Interface) lets developers access and use data from a platform.
๋ ๋ง์ 10๋ง ๊ฐ๊ฐ ๋๋ ์ปค๋ฎค๋ํฐ(subreddit)๋ก ์ด๋ฃจ์ด์ง ๋ํ ์จ๋ผ์ธ ํฌ๋ผ์ด๋ค.
์ผ๋ฐ์ ์ธ SNS์ ๋ฌ๋ฆฌ ๋นํ์์ ์ด๊ณ , ๋ฐ์ด ๋ง๊ณ , ํน์ดํ ํํ์ด ์ด์ ์จ ์ฌ๋ ๊ณณ์ด๋ค.
API๋ ํน์ ํ๋ซํผ์ ๋ฐ์ดํฐ๋ฅผ ์ธ๋ถ์์ ํ์ฉํ ์ ์๋๋ก ์ฐ๊ฒฐํด์ฃผ๋ ์ธํฐํ์ด์ค๋ค.
๐งฉ IYKYK(If you know, you know)
1. Data licensing (๋ฐ์ดํฐ ๋ผ์ด์ ์ค ๊ณ์ฝ)
Letting a company pay to access and use a platformโs user-generated content.
๊ธฐ์
์ด ํ๋ซํผ์ ์ฌ์ฉ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ ์ ์๋๋ก ๊ณ์ฝ์ ๋งบ๊ณ ๋น์ฉ์ ์ง๋ถํ๋ ๊ฒ.
2. Subreddit (์๋ธ๋ ๋ง)
A topic-based community inside Reddit.
Each one has its own culture, rules, and language quirks.
๋ ๋ง ์์ ์ฃผ์ ๋ณ ์ปค๋ฎค๋ํฐ. ๊ฐ ์๋ธ๋ ๋ง๋ง๋ค ๊ณ ์ ํ ๋ฌธํ, ๊ท์น, ์ธ์ด๊ฐ ์กด์ฌํ๋ค.
3. Moderation politics (์ฝํ
์ธ ๊ด๋ฆฌ์ ์ ์น์ฑ)
The often controversial process of deciding what stays up and what gets taken down.
๋ฌด์์ ํ์ฉํ๊ณ ๋ฌด์์ ์ง์ฐ๋๋๋ฅผ ๋๋ฌ์ผ ์ปค๋ฎค๋ํฐ ๋ด๋ถ์ ๊ฐ๋ฑ๊ณผ ๋
ผ์์ ๊ณผ์ .
๐ฃ How They Talk About It
๐ scraping culture
: ์ธํฐ๋ท์์ ๋ฐ์ดํฐ ๊ธ์ด๊ฐ๊ธฐ ๋ฌธํ
โ โReddit is done with being scraped for free.โ
โ โ๋ ๋ง์ ์ด์ ๊ณต์ง๋ก ๊ธํ๋ ๊ฑธ ๊ทธ๋ง๋๊ธฐ๋ก ํ๋ค.โ
๐ language in the wild
: ์ฌ๋๋ค์ ์์ฐ์ค๋ฌ์ด ์ธ์ด, ํต์ ๋์ง ์์ ๋ํ
โ โThis partnership helps OpenAI train models on language in the wild.โ
โ โ์ด๋ฒ ํํธ๋์ญ์ ํตํด ์คํAI๋ ์ค์ ์ธํฐ๋ท ๋ํ์ฒด๋ก ๋ชจ๋ธ์ ํ๋ จํ ์ ์๋ค.โ
๐ paywalling the internet
: ์ธํฐ๋ท ์ฝํ
์ธ ์ ์๊ธ ์ฅ๋ฒฝ์ ์ธ์ฐ๋ ํ๋ฆ
โ โIs Reddit just paywalling the internet?โ
โ โ๋ ๋ง๋ ๊ฒฐ๊ตญ ์ธํฐ๋ท์ ์ ๋ฃ ์ฅ๋ฒฝ์ ์ธ์ฐ๋ ๊ฑด๊ฐ?โ
๐ training data goldmine
: AI ํ๋ จ์ ์ต๊ณ ์ ๋ฐ์ดํฐ ์์ฒ
โ โSubreddits are a training data goldmine for LLMs.โ
โ โ์๋ธ๋ ๋ง์ ๋ํ ์ธ์ด๋ชจ๋ธ์๊ฒ ํฉ๊ธ ๊ฐ์ ํ๋ จ ์์์ด๋ค.โ
๐ from post to prompt
: ๊ฒ์๊ธ์์ AI ์
๋ ฅ๊ฐ์ผ๋ก
โ โYour Reddit rant might become someoneโs ChatGPT prompt.โ
โ โ๋ ๋ง์ ์ด ํ์์ฐ์ด ๋๊ตฐ๊ฐ์ ์ฑGPT ์ง๋ฌธ์ด ๋ ์ ์๋ค.โ
๐งญ Discourse Watch
๐บ๐ธ U.S.
U.S. tech outlets framed the Reddit x OpenAI deal as part of a broader shift toward monetizing user content for AI training.
Redditโs community reacted with mixed feelings โ some saw it as a betrayal of user culture, while others viewed it as necessary to fund the platform.
Many referenced Redditโs past opposition to web scraping and compared this move to X (formerly Twitter) and Stack Overflow's licensing moves.
๋ฏธ๊ตญ์ ๊ธฐ์ ๋งค์ฒด๋ค์ ์ด๋ฒ ๊ณ์ฝ์ โ์ฌ์ฉ์ ์ฝํ
์ธ ๋ฅผ AI ํ์ต์ฉ ์์ฐ์ผ๋ก ํ์ฐํ๋ ํ๋ฆโ์ ์ผํ์ผ๋ก ๋ณด๋ํ๋ค.
๋ ๋ง ์ปค๋ฎค๋ํฐ ๋ด๋ถ ๋ฐ์์ ์๊ฐ๋ ธ๋๋ฐ, ์ผ๋ถ๋ โ์ฌ์ฉ์ ๋ฌธํ๋ฅผ ๋๋ฒ์ด์ ํ์๋คโ๊ณ ๋นํํ๊ณ ,
๋ ๋ค๋ฅธ ์ผ๋ถ๋ โ๋ ๋ง์ด ์ด์๋จ๊ธฐ ์ํด ์ด์ฉ ์ ์๋ ์ ํโ์ด๋ผ๋ฉฐ ํ์ค๋ก ์ ์ ์ํ๋ค.
์ด์ ๋ถํฐ ์คํฌ๋ํ์ ๋ฐ๋ํด์จ ๋ ๋ง์ ์
์ฅ ๋ณํ์ ๋ํด ์๋ฌธ์ด ์ ๊ธฐ๋๊ณ ,
X(ํธ์ํฐ), ์คํ์ค๋ฒํ๋ก์ฐ ๋ฑ์ ์ฌ๋ก์ ๋น๊ต๋๊ธฐ๋ ํ๋ค.
๐ฐ๐ท Korea
In Korea, the RedditโOpenAI deal drew limited media attention.
However, the broader issue of data privacy and unpaid data usage for AI training has been steadily gaining traction.
Some Korean tech blogs have begun raising questions about whether local platforms like Naver Cafรฉ or DC Inside could be next.
ํ๊ตญ์์๋ ํด๋น ์ด์์ ๋ํ ์ธ๋ก ๋ณด๋๋ ์ ์์ง๋ง,
โ๊ฐ์ธ์ ์จ๋ผ์ธ ๋ฐ์ธ์ด ๋์ ์์ด AI ํ์ต์ ์ฌ์ฉ๋๋ ๊ฒโ์ ๋ํ ๋ฌธ์ ์์์ ์ปค์ง๊ณ ์๋ค.
์ผ๋ถ ํ
ํฌ ๋ธ๋ก๊ทธ์์๋ ๋ค์ด๋ฒ ์นดํ, ๋์์ธ์ฌ์ด๋ ๋ฑ์ ํ๊ตญ ์ปค๋ฎค๋ํฐ๋
์ธ์ ๊ฐ๋ ์ด๋ฐ ํ๋ฆ์ ํฌํจ๋ ์ ์๋ค๋ ์ฐ๋ ค๋ฅผ ๋ด๋๊ณ ์๋ค.
๐ฌ Outro
Reddit didnโt sell its soul โ it licensed its voice.
But in doing so, it changed what community language means.
๋ ๋ง์ ์ํผ์ ํ ๊ฒ ์๋๋ผ, ์ธ์ด๋ฅผ ์๋ํ๋ค.
ํ์ง๋ง ๊ทธ ์๊ฐ, โ์ปค๋ฎค๋ํฐ ์ธ์ดโ๋ผ๋ ๊ฐ๋
์ ๋ฐ๋์๋ค.
๐ In 2005, Reddit was just another scrappy startup.
Today, itโs training the next generation of AI โ one comment at a time.
2005๋
, ๋ ๋ง์ ๊ทธ์ ๋ ํ๋์ ๋ฒค์ฒ์๋ค.
์ด์ ๋ ๋๊ธ ํ๋ํ๋๊ฐ AI๋ฅผ ํ๋ จ์ํค๊ณ ์๋ค.
๐งพ Sources
OpenAI Partners with Reddit for Real-Time Data (CNN, 2024)
Reddit Users React to ChatGPT Deal (The Verge, 2024)
Redditโs AI Licensing Strategy (TechCrunch, 2024)
Redditโs Moderation Crisis and Monetization Shift (NYT, 2023)
DC Inside and the Ethics of Digital Data in AI (ZDNet Korea, 2024)